Ťažba dát - čo to je, definícia a koncept

Data mining je proces prehľadávania veľkých databáz s cieľom nájsť užitočné informácie, ktoré sa dajú použiť pri rozhodovaní. Používa sa aj anglický výraz „data mining“.

Možno ho chápať ako technológiu a softvér používaný na nájdenie vzorcov správania v databáze. Základným základom je to, že tieto vzorce pomáhajú pri rozhodovaní. Napríklad by to mohlo pomôcť spoločnostiam porozumieť vzorcom správania ich zákazníkov. Takým spôsobom, ktorý by uľahčil vytvorenie stratégií na zvýšenie predaja alebo zníženie nákladov.

Výhody dolovania dát

Zásadnou výhodou tohto procesu analýzy údajov je veľké množstvo obchodných scenárov, na ktoré sa dá použiť, ako príklad uvádzame:

  • Predikcia: Prognóza predaja spoločnosti.
  • Pravdepodobnosť: Výber najlepších klientov pre priamy kontakt telefonicky alebo e-mailom.
  • Sekvenčná analýza: Analýza výrobkov, ktoré si zákazníci kúpili, a kontrola ich vzájomného vzťahu.

Fázy ťažby údajov

V rámci procesu ťažby dát nájdeme päť fáz:

  • Cieľ a zber údajov: V prvom rade je potrebné zamerať sa na to, aký typ informácií chceme získať. Predstavme si príklad, že supermarket chce vedieť, aká je denná doba, kde je najviac zákazníkov. To by bol cieľ a informácie, ktoré chce obchod v tomto prípade získať.
  • Spracovanie a správa údajov: Keď poznáme údaje, ktoré chceme zhromaždiť, uvedieme ich do prevádzky. Toto je možno najťažšia fáza procesu. Vyžaduje si to výber reprezentatívnej vzorky, na ktorej sa bude analýza vykonávať. Po výbere vzorky je potrebné analyzovať, aký typ premenných alebo regresný model sa na vzorke uskutoční.
  • Výber modelu: Úzko to súvisí s predchádzajúcou fázou. Ide o vytvorenie modelu alebo algoritmu, ktorý nám poskytne najlepší možný výsledok. Za týmto účelom je potrebné vykonať vyčerpávajúcu analýzu premenných zahrnutých do modelu. To sa stáva komplikovanou úlohou, pretože to bude závisieť od typu informácií, ktoré sa majú analyzovať. Preto ťažiari dát vykonávajú rôzne testy algoritmu, ako napríklad: lineárna regresia, rozhodovací strom, časové rady, neurónová sieť atď.
  • Analýza a preskúmanie výsledkov: V zásade ide o analýzu výsledkov, aby sa zistilo, či prinesú logické vysvetlenie. Vysvetlenie, ktoré uľahčuje rozhodovanie na základe informácií poskytnutých výsledkami.
  • Aktualizácia modelu: Posledným krokom procesu bude aktualizácia modelu. Je veľmi dôležité, aby sa to stalo časom, aby to nezostarlo. Premenné modelu by sa mohli stať nepodstatnými, a preto je potrebná pravidelná kontrola modelu.