Koeficient determinácie (R na druhú)

Obsah:

Koeficient determinácie (R na druhú)
Koeficient determinácie (R na druhú)
Anonim

Koeficient determinácie je podiel celkovej odchýlky premennej vysvetlený regresiou. Koeficient determinácie, nazývaný tiež R na druhú, odráža správnosť prispôsobenia modelu premennej, ktorú chce vysvetliť.

Je dôležité vedieť, že výsledok koeficientu determinácie osciluje medzi 0 a 1. Čím je jeho hodnota bližšie k 1, tým väčšie je prispôsobenie modelu premennej, ktorú sa snažíme vysvetliť. Naopak, čím bližšie k nule, tým menej bude model tesný, a tým menej spoľahlivý bude.

V predchádzajúcom výraze máme zlomok. Poďme teda po častiach. Najskôr analyzujeme čitateľa, teda hornú časť.

Pre tých, ktorí nepoznajú výraz odchýlky, odporúčam prečítať si o tom článok. Pre tých, ktorí to vedia, si môžu uvedomiť, že ide o vyjadrenie odchýlky, ale s dvoma zásadnými rozdielmi.

Prvý rozdiel je v tom, že Y má háčik alebo niečo, čo učitelia didakticky nazývajú „klobúk“. Podrobnosti tohto klobúka sú také, že Y predstavuje odhad modelu toho, čo podľa vysvetľujúcich premenných stojí za Y, ale nejde o skutočnú hodnotu Y, ale o odhad Y.

Po druhé, bolo by potrebné vydeliť T. Čo je v ostatných prípadoch uvedené ako N alebo počet pozorovaní. Pretože by to niesol aj vzorec menovateľa, odstránime z oboch vzorcov menovatele (dole), aby sme výraz zjednodušili. Takto sa s ním ľahšie pracuje.

Ďalej budeme robiť rovnakú analýzu s menovateľovou časťou (spodná časť).

V takom prípade je jediným rozdielom od pôvodného variantného vzorca absencia jeho menovateľa. To znamená, že nedelíme T alebo N. Týmto spôsobom, akonáhle budú vysvetlené dve časti generického vyjadrenia R na druhú alebo koeficientu determinácie, uvidíme príklad.

Koeficient variácieLineárny korelačný koeficientRegresná analýza

Výklad koeficientu determinácie

Predpokladajme, že chceme vysvetliť počet gólov, ktoré strelí Cristiano Ronaldo, na základe počtu odohraných hier. Predpokladáme, že čím viac odohraných hier, tým viac gólov dá. Údaje sa týkajú posledných 8 sezón. Po extrakcii údajov teda model poskytne nasledujúci odhad:

Ako vidíme z grafu, vzťah je pozitívny. Čím viac odohraných zápasov, tým samozrejme viac gólov dáva v sezóne. Zhoda, založená na výpočte štvorcového R, je 0,835. To znamená, že ide o model, ktorého odhady celkom dobre zapadajú do skutočnej premennej. Aj keď by to technicky nebolo správne, dalo by sa povedať niečo také, model vysvetľuje 83,5% skutočnej premennej.

Problém s koeficientom stanovenia

Problém koeficientu determinácie a dôvod, prečo vzniká upravený koeficient determinácie, je ten, že nepenalizuje zahrnutie nevýznamných vysvetľujúcich premenných. To znamená, že ak sa k modelu pridá päť vysvetľujúcich premenných, ktoré nesúvisia s cieľmi, ktoré Cristiano Ronaldo strelí v sezóne, hodnota R sa zvýši. To je dôvod, prečo sa mnoho ekonometrických, štatistických a matematických odborníkov stavia proti použitiu R na druhú ako reprezentatívnej miery správnosti skutočného zhody.

Upravený koeficient determinácie

Upravený koeficient determinácie (upravený R na druhú) je miera, ktorá definuje percento vysvetlené rozptylom regresie vo vzťahu k rozptylu vysvetlenej premennej. To znamená, že rovnaké ako R na druhú, ale s rozdielom: Upravený koeficient determinácie penalizuje zahrnutie premenných.

Ako sme už povedali, koeficient determinácie modelu sa zvyšuje, aj keď premenné, ktoré zahrnieme, nie sú relevantné. Pretože sa jedná o problém, pokúsime sa ho vyriešiť, upravený štvorcový R je taký, že:

Vo vzorci je N veľkosť vzorky a k je počet vysvetľujúcich premenných. Matematickým odvodením, čím vyššie sú hodnoty k, tým ďalej bude upravený štvorcový R od normálneho štvorcového R. Naopak, pri nižších hodnotách k bude bližší stredný zlomok k 1, a preto bude upravený štvorcový R a normálny štvorcový R viac podobný.

Pamätajúc na to, že k je počet vysvetľujúcich premenných, vyvodzujeme, že to nemôže byť nula. Keby bola nula, nebol by žiadny model. Prinajmenšom si budeme musieť jednu premennú vysvetliť z hľadiska inej premennej. Pretože k musí byť aspoň 1, upravený štvorcový R a normálny štvorcový R nemôžu mať rovnakú hodnotu. Ďalej bude upravený štvorcový R vždy menší ako normálny štvorcový R.