Kolmogorovov test - Smirnoff (K-S)

Obsah:

Kolmogorovov test - Smirnoff (K-S)
Kolmogorovov test - Smirnoff (K-S)
Anonim

Test Kolmogorov-Smirnoff (K-S) je neparametrický test, ktorého cieľom je zistiť, či frekvencia dvoch rôznych súborov údajov sleduje rovnaké rozdelenie okolo ich priemeru.

Inými slovami, Kolmogorov-Smirnoffov (K-S) test je test, ktorý sa prispôsobuje tvaru údajov a slúži na kontrolu, či dve rôzne vzorky sledujú rovnaké rozdelenie.

Prečo je to neparametrický test?

Krása „neparametrickej“ charakteristiky spočíva v tom, že sa hodí k údajom a následne k distribúciám, ktoré môžu sledovať frekvenciu údajov. Táto vlastnosť nás navyše chráni pred predpokladmi a priori akou distribúciou sa vzorka riadi.

Dôležitosť testu K-S

Koľkokrát sme dostali dve vzorky a bez premýšľania sme vypočítali Pearsonov korelačný koeficient? Inými slovami, ak chceme vidieť lineárny vzťah medzi dvoma súbormi údajov, bolo by spravodlivé vypočítať koreláciu, že?

Tento odpočet by bol pravdivý, ak by rozdelenie dvoch vzoriek nasledovalo normálne rozdelenie. Korelačný koeficient predpokladá, že rozdelenia sú normálne, ak tento predpoklad preskočíme, je výsledok korelačného koeficientu nesprávny. Pre testy hypotéz a intervaly spoľahlivosti tiež predpokladáme, že populácia je distribuovaná normálnym rozdelením.

Rovnako ako všetky hypotézne testy, ktoré zahŕňajú štatistiku, je dôležité mať veľký objem údajov, aby ste dosiahli štatisticky významné výsledky. Nulovú hypotézu môžeme mylne odmietnuť, pretože vzorka je malá. Ďalej je tiež dôležité, aby táto vzorka mala nejaké extrémne prípady (odľahlé hodnoty, v angličtine), aby sa dosiahol súlad s výsledkom testu.

Skúšobný postup

Postup ďalších krokov.

Hypotéza

Prvým krokom bude skontrolovať, či majú obe vzorky rovnakú distribúciu. Za týmto účelom vykonáme test hypotézy za predpokladu, že obe vzorky majú rovnaké rozdelenie oproti alternatívnej hypotéze, že sú odlišné.

Štatistické

Pracujeme s kumulatívnymi distribučnými funkciami dvoch vzoriek, F1(x) a F2(X):

Nepanikár! Vyššie uvedený vzorec analyzujeme pokojne:

  • Dôležitou súčasťou vzorca je znak rozdielu (-). Hľadáme vertikálne rozdiely v distribúciách. Takže odčítame obe kumulatívne distribučné funkcie.
  • The operátor „max“. Zaujíma nás, či hľadáme najväčší alebo maximálny rozdiel, aby sme zistili, aké odlišné môžu byť dve rozdelenia.
  • The absolútna hodnota. Absolútnu hodnotu používame tak, aby poradie operátorov nemenilo výsledok. Inými slovami, nezáleží na tom, ktoré F (x) má záporné znamienko:

Kritická hodnota

Pre veľké vzorky existuje aproximácia kritickej hodnoty pre K-S, ktorá závisí od úrovne významnosti (%):

Kde1 a n2 sú veľkosť vzorky pre vzorku F.1(x) a F2(x).

Niektoré vypočítané kritické hodnoty:

Pravidlo odmietnutia

App

Veľmi často chceme vyskúšať, či sa dve distribúcie navzájom dostatočne líšia, keď chceme zostaviť predikčné scenáre (pracujeme s dvoma vzorkami) alebo keď chceme vyhodnotiť, ktorá distribúcia najlepšie vyhovuje údajom (pracujeme iba s jednou vzorkou).