Dátová veda je disciplína, ktorá študuje, odkiaľ pochádza určitá informačná základňa. Diskutuje sa tiež o tom, ako je možné tieto zdroje interpretovať a predstavovať pre produktívne využitie.
To znamená, že dátová veda sa týka správy databáz, ktoré sú uložené v digitálnych súboroch a z ktorých je možné získať veľa užitočných informácií ako štatistické ukazovatele. Môžu pomôcť napríklad spoločnosti pri prijímaní obchodných rozhodnutí.
Rovnako tak dátová veda poskytuje nástroje, ktoré umožňujú nielen interpretovať, ale aj reprezentovať napríklad dostupné dáta v obrázkoch. Máme tu teda okrem iných aj histogram, stĺpcový diagram, koláčový graf.
Ako možno odvodiť, táto veda je interdisciplinárna, pretože pokrýva hlavne vedomosti z matematiky, štatistiky a informatiky.
Veda o údajoch a typy údajov
Je tiež potrebné poznamenať, že dátová veda môže pracovať s dvoma typmi údajov:
- Štruktúrované: Sú to tie, ktoré sú usporiadané, napríklad tabuľky s rôznymi stĺpcami, z ktorých každá má inú kategóriu, ako napríklad: meno, priezvisko, vek, číslo dokladu totožnosti atď.
- Neštruktúrované: Tie, ktoré nezodpovedajú určitému formátu, napríklad voľne napísaný text. V takom prípade musíte interpretovať obsah a extrahovať údaje, ktoré je možné spravovať.
Ak vezmeme do úvahy všetko, čo bolo vysvetlené, odborníci špecializovaní na dátovú vedu musia mať nielen analytické schopnosti, ale musia byť schopní komunikovať s obsahom spracovaných informácií.
Dôležitosť vedy o údajoch
Dátová veda je dôležitá pre spoločnosti alebo inštitúcie, ktoré musia pracovať s veľkým objemom údajov. Môžu sa tak stať cennými informáciami.
Dátovú vedu môžeme dať do súvislosti s Big Data, ktorý pozostáva z vývoja mechanizmov schopných spracovávať a spravovať masívne dáta pochádzajúce z rôznych zdrojov. Cieľom je premeniť ich na informácie, ktoré človek dokáže interpretovať a ktoré mu pomáhajú pri rozhodovaní.
Tieto údaje, ktoré sa majú spracovať, môžu pochádzať z transakcií medzi jednotlivcami a organizáciami (napríklad bankové operácie), z každodenných činností ľudí (napríklad z vyhľadávania na internete), zo strojov (napríklad z GPS mobilného telefónu, ktoré zaznamenávajú, kde sa používateľ nachádzal), alebo z informácií biometrické (napríklad odtlačok prsta).
História dátovej vedy
Dá sa povedať, že americký štatistik John Wilder Tukey bol priekopníkom v oblasti dátovej vedy v 60. rokoch minulého storočia, pričom zdôraznil dôležitosť analýzy dát namiesto testovania štatistických modelov.
Avšak až v roku 1996 sa pojem dátová veda prvýkrát použil v názve prednášky v rámci prednášky nazvanej „Veda o údajoch, klasifikácia a súvisiace metódy“. A to v rámci stretnutia členov „Medzinárodnej federácie klasifikačných spoločností“ (IFCS), ktoré sa konalo v japonskom Kobe.
Ďalším dôležitým míľnikom bol rok 2005, keď The National Science Board publikoval „Long-Lived Digital Data Collection Enabling Research and Education in the 21st Century“. V tomto dokumente sú dátoví vedci definovaní ako počítačoví odborníci, programátori databáz a softvéru a profesionáli z iných disciplín (napríklad knihovníci a archivári), ktorí sú rozhodujúci pre úspešné riadenie digitálneho zberu údajov.
Toto je však stále študovaný odbor, ktorý sa stále vyvíja.