Štatistický znak - čo to je, definícia a pojem

Štatistická vzorka je podmnožina údajov patriacich do súboru údajov. Štatisticky povedané, musí byť tvorený určitým počtom pozorovaní, ktoré adekvátne predstavujú celkové údaje.

Štatistika ako odvetvie matematiky je zodpovedná za zber údajov, ich objednávanie a analýzu. Inými slovami, keď chceme študovať určitý jav, obrátime sa na štatistiku. Dobrým príkladom fenoménu, ktorý skúmajú štatistiky, je priemerný plat občanov krajiny

V tomto zmysle z časových a nákladových dôvodov nemôžeme zhromaždiť všetky údaje. Tento súhrn údajov je známy ako dátová populácia alebo jednoducho populácia.

Prečo pracujete so štatistickými vzorkami?

Aby sme vysvetlili, prečo sa namiesto celkovej populácie používa štatistická vzorka, uchýlime sa k uvedenému príkladu.

Predpokladajme, že chceme študovať akýkoľvek jav. V našom prípade je týmto javom priemerný plat občanov krajiny. Populáciu dát tvoria všetci pracovníci v krajine. Samozrejme, z časových a nákladových dôvodov by bolo nemožné opýtať sa každého pracovníka, aký je jeho ročný plat. Trvalo by to dlho, alebo by sme potrebovali veľa zdrojov.

V tomto okamihu sa objavuje koncept štatistickej vzorky. Namiesto toho, aby sme sa pýtali miliónov pracovníkov v krajine alebo regióne, zhromažďujeme iba malé množstvo údajov. Napríklad sme sa pýtali 100 000 ľudí. Táto úloha je stále komplikovaná, ale je oveľa dostupnejšie požiadať 100 000 ľudí ako 30 miliónov.

Toto malé množstvo údajov musí byť reprezentatívne. To znamená, že musí primerane reprezentovať populáciu. Ak sa 100 000 ľudí, ktorých sme požiadali, sústredí v bohatých štvrtiach, získame údaje, ktoré nie sú reprezentatívne. Priemerný plat by bol oveľa vyšší, ako je v skutočnosti.

Charakteristika reprezentatívnej štatistickej vzorky

Ak chcete urobiť dobrý výskum, je dôležitá kvalita štatistickej vzorky. Ak je štatistická vzorka zaujatá, je zbytočné vykonávať najkomplexnejšie štatistické metriky s najsofistikovanejšími modelmi. Teda v prípade, že vzorka nie je reprezentatívna.

Pri získavaní reprezentatívnej vzorky sú určité aspekty, ktoré musí výskumník vopred poznať. Medzi tieto aspekty patria charakteristiky reprezentatívnej vzorky. Charakteristika reprezentatívnej vzorky je nasledovná:

  • Dostatočne veľká veľkosť: Keď pracujeme so vzorkami, zvyčajne pracujeme s množstvom údajov, ktoré je menšie ako populácia. Aby však štatistická vzorka bola reprezentatívna, musí byť dostatočne veľká, aby sa mohla považovať za reprezentatívnu. Napríklad ak našu populáciu tvorí 10 miliónov údajov a my ich vyberieme 10, je ťažké byť reprezentatívna. Samozrejme, čím väčšia vzorka nie je vždy reprezentatívnejšia.
  • Náhodnosť: Výber údajov zo štatistickej vzorky musí byť náhodný. To znamená, že to musí byť úplne náhodné. Ak namiesto toho, aby sme to robili náhodne, uskutočňujeme plánovaný proces výberu údajov, zavádzame do zberu údajov zaujatosť. Preto, aby sa zabránilo skresleniu vzorky, a preto, aby sa stala reprezentatívnou vzorkou, musíme vykonať náhodný výber.

Štatistický záver

Po získaní máme reprezentatívnu vzorku, potom je potrebné odvodiť určité metriky. Často nás zaujíma poznanie určitej miery premennej. V pôvodnom príklade by premennou bol plat občanov krajiny. V tomto zmysle je metrikou, ktorú chceme analyzovať, priemerný plat občanov krajiny.

Inými slovami, máme dátovú populáciu zloženú zo všetkých pracovníkov v Mexiku. Z tejto populácie dostaneme premennú, to znamená ročný plat. Použitím vhodných techník sme získali reprezentatívnu vzorku. A nakoniec, akonáhle budeme mať súbor údajov, s ktorým môžeme pracovať, použijeme na výpočet priemerného platu techniky štatistickej inferencie.

Po získaní súboru údajov by sme samozrejme mohli odvodiť ďalšie opatrenia. Napríklad ako je rozdelený plat, koľko percent pracovníkov je pod určitým platom alebo aký veľký je platový rozdiel.

Príklad štatistickej vzorky

Predpokladajme, že chceme uskutočniť štúdiu o priemerných výdavkoch kolumbijských rodín v mesiaci január. Máme dve možnosti:

  1. Zadajte bankové účty všetkých rodín v Kolumbii
  2. Spýtajte sa na reprezentatívny počet ľudí

Prvá možnosť je nerealizovateľná z niekoľkých dôvodov. Po prvé, že rodiny sa svojich údajov nevzdajú a po druhé, že sme pri pohľade na údaje tiež nemohli ísť po rodinách. Hlavne preto, že počet obyvateľov Kolumbie je takmer 50 miliónov. Druhou možnosťou je zatiaľ zber štatistickej vzorky.

Podľa vyššie spomenutých charakteristík urobíme to, že požiadame 100 000 rodín. Je to trochu komplikované, ale oveľa jednoduchšie ako požiadať 50 miliónov Kolumbijčanov. Rozdiel je značný. Na základe tejto vzorky 100 000 rodín sa teda pokúsime vypočítať priemerné výdavky rodín v januári.

Extrahované údaje budú viac-menej spoľahlivé podľa série metrík, ktoré sa berú do úvahy pri štatistických vyšetrovaniach. Tieto typy metrík sú samozrejme pokročilejšie, a preto ich tu nebudeme rozoberať.

Vám pomôže rozvoju miesta, zdieľať stránku s priateľmi

wave wave wave wave wave