Zistite odľahlé hodnoty pomocou normálneho rozdelenia

Obsah:

Zistite odľahlé hodnoty pomocou normálneho rozdelenia
Zistite odľahlé hodnoty pomocou normálneho rozdelenia
Anonim

Zisťovanie odľahlých hodnôt pomocou normálneho rozdelenia je proces, ktorý zahŕňa definovanie prahovej hodnoty štandardnej odchýlky a pomocou ktorej sa má nájsť extrémne hodnoty vzorky.

Inými slovami, zistiť odľahlé hodnoty prostredníctvom normálneho rozdelenia znamená nájsť extrémne hodnoty súboru údajov pomocou štandardizovaného normálneho vzorca.

  • Hodnoty extrémy sa volajú odľahlé hodnoty v angličtine.
  • Hodnoty interné sa volajú zasvätených osôb v angličtine.

Ak máte veľmi málo údajov, môže vám pomôcť optická detekcia odľahlých hodnôt. Pri práci s databázami je veľmi nepraktické hľadať odľahlé hodnoty manuálne. Na vyriešenie tohto problému môžeme vypočítať, ktoré hodnoty sú považované za extrémne, porovnaním s prahom odchýlok.

V prípade normálneho rozdelenia sa hodnota považuje za extrémnu, ak sú od štandardnej odchýlky vzdialené 3 štandardné odchýlky. Pretože normálne rozdelenie má 2 chvosty, musíme brať do úvahy, že je možné ho zväčšiť na negatívnej aj pozitívnej strane.

Vzorec na detekciu odľahlých hodnôt pomocou normálneho rozdelenia

Množinu pozorovaní je možné vyjadriť predchádzajúcim spôsobom, kde x je stredná hodnota, nad ktorou hodnoty oscilujú a sigma rozptyl oscilácie uvedených hodnôt. Inými slovami, sigma je vzdialenosť pozorovaní od strednej hodnoty.

Multiplikatívny faktor určuje, či ide o odľahlú hodnotu alebo dôvernú informáciu. Ak z bude mať hodnoty 3 alebo -3, potom podľa normálneho rozdelenia bude pozorovanie y odľahlou hodnotou.

Poznať hodnotu z použijeme predchádzajúcu rovnicu:

  • Ak z> = 3 alebo z = <-3, potom to podľa normálneho rozdelenia môžeme povedať Y. je to extrémna hodnota alebo odľahlé hodnoty.
  • Ak z <3 alebo z <-3, potom to podľa normálneho rozdelenia môžeme povedať Y. je interná hodnota alebo interná hodnota.

Normálny štandard

Je vyššie uvedená rovnica známa?

Je to presne vyjadrenie pozorovania, ktoré nasleduje po normálnom rozdelení, keď už je štandardizované alebo typizované. Nazýva sa to tak preto, lebo keď sa vydelí štandardnou alebo štandardnou odchýlkou, rozdiel čitateľa sa vyjadrí ako odchýlky.

Z tohto dôvodu môžeme priradiť hodnoty odchýlok k z a teda môcť ho kúpiť s prahovou hodnotou 3 odchýlok.

Príklad

Podľa normálneho rozdelenia nájdite extrémne hodnoty nasledujúcich pozorovaní:

Pozorovania uvádzame v grafe:

Od začiatku už vidíme, že hodnota, ktorá je od zvyšku najďalej, môže s najväčšou pravdepodobnosťou znamenať odľahlú hodnotu.

Najprv vypočítame priemer a štandardnú odchýlku:

x = priemer = 5,8

sigma = štandardná odchýlka = 10,51

Potom dosadíme hodnoty do vzorca a vypočítame hodnotu z pre každé pozorovanie:

Vyššie uvedené hodnoty sú multiplikatívne faktory sigma, to znamená, z. Čokoľvek, čo je väčšie ako 3 alebo menšie ako -3, bude extrémnou hodnotou.

Vidíme, že hodnota z ktorá presahuje 3 štandardné odchýlky, je tá, ktorá zodpovedá pozorovaniu 49.

Preto by extrémna alebo krajná hodnota súboru údajov bola 49.