Odľahlý - čo to je, definícia a koncept

Obsah:

Odľahlý - čo to je, definícia a koncept
Odľahlý - čo to je, definícia a koncept
Anonim

Odľahlou hodnotou je abnormálne a extrémne pozorovanie štatistickej vzorky alebo časových radov údajov, ktoré môžu potenciálne ovplyvniť odhad jej parametrov.

Jednoduchšími slovami, odľahlou hodnotou by bolo pozorovanie vo vzorke alebo časovom rade údajov, ktoré nie je v súlade so zvyškom. Predstavte si napríklad, že meriame výšku študentov v triede.

Poďme si predstaviť vzorku 10 študentov. Výška každého z nich je nasledovná:

Ukážka 1
ŠtudentVýška v metroch
11,65
21,80
31,72
41,68
51,75
61,85
71,62
81,79
91,82
101,69

Priemerná výška triedy by bola 1,73. Ak vezmeme do úvahy maximálnu výšku (1,85) a minimálnu výšku (1,62) a vzdialenosť medzi nimi k priemeru, zistíme, že je to 0,113, respektíve 0,117. Ako vidíme, priemer je približne v polovici intervalu a dá sa považovať za celkom dobrý odhad.

Mimoriadny efekt

Teraz uvažujme o ďalšej vzorke 10 študentov, ktorých výška je nasledovná:

Ukážka 1
ŠtudentVýška v metroch
11,65
21,80
31,72
41,68
52,18
62,20
71,62
81,79
91,75
101,69

V takom prípade by priemerná výška triedy bola 1,81. Ak sa teraz pozrieme na maximálnu výšku (2,20) a minimálnu výšku (1,62) a vzdialenosť medzi nimi na strednú hodnotu, zistíme, že je to 0,39, respektíve 0,18. V tomto prípade priemer už nie je približne v strede rozsahu.

Účinok 2 najextrémnejších pozorovaní (2,18 a 2,20) spôsobil posun aritmetického priemeru k maximálnej hodnote distribúcie.

Na tomto príklade vidíme vplyv, ktorý majú odľahlé hodnoty a ako môžu skresliť výpočet priemeru.

Ako zistiť extrémne hodnoty?

Ako opraviť účinok odľahlých hodnôt

V situáciách, ako je táto, v ktorej existujú abnormálne hodnoty, ktoré sa podstatne líšia od ostatných, je stredná hodnota lepším odhadom, aby bolo možné zistiť, v ktorej chvíli sa koncentruje väčší počet pozorovaní.

V prípade oboch distribúcií a keďže máme párny počet hodnôt, nemôžeme na výpočet mediánu brať presne tú hodnotu, ktorá rozdelí distribúciu na polovicu. S ktorými by sme po zoradení hodnôt od najnižšej po najvyššiu vykonali piate a šieste pozorovanie (obidve ponechali 4 pozorovania na každej strane) a vypočítali sme medián takto:

Ukážka 1:

1,75+1,72/2 = 1,73

Ukážka 2:

1,79+1,71/2 = 1,75

Ako vidíme, vo vzorke číslo 1, keďže neexistujú nijaké mimoriadne hodnoty alebo abnormálne pozorovania, je medián 1,73 a zhoduje sa s priemerom. Naopak, pre vzorku 2 je priemer 1,75. Ako vidíme, táto hodnota je ďalej od priemernej výšky, ktorá bola 1,81, a poskytuje nám kvalitnejší odhad bodu kvality, aby sme vedeli približne, v ktorom bode je koncentrované väčšie množstvo pozorovaní.

Bodový odhad