Kaj je proces podatkovnega rudarjenja?

Proces podatkovnega rudarjenja je orodje za odkrivanje statistično pomembnih vzorcev v veliki količini podatkov. Običajno vključuje pet glavnih korakov, ki vključujejo pripravo, raziskovanje podatkov, gradnjo modela, uvajanje in pregled. Vsak korak v procesu vključuje drugačen nabor tehnik, vendar večina uporablja neko obliko statistične analize.

Preden se lahko začne postopek rudarjenja podatkov, si raziskovalci običajno postavijo raziskovalne cilje. Ta pripravljalni korak običajno določa, katere vrste podatkov je treba preučiti, katere tehnike rudarjenja podatkov je treba uporabiti in v kakšni obliki bodo rezultati. Ta začetni korak v procesu je lahko ključnega pomena za zbiranje koristnih informacij.

Naslednji korak v procesu rudarjenja podatkov je raziskovanje. Ta korak običajno vključuje zbiranje zahtevanih podatkov iz informacijskega skladišča ali subjekta za zbiranje. Nato rudarski strokovnjaki običajno pripravijo neobdelane nabore podatkov za analizo. Ta korak je običajno sestavljen iz zbiranja, čiščenja, organiziranja in preverjanja vseh podatkov glede napak.

Ti pripravljeni podatki običajno nato vstopijo v tretji korak v procesu rudarjenja podatkov, gradnjo modela. Da bi to dosegli, raziskovalci običajno vzamejo majhne testne vzorce podatkov in zanje uporabijo različne tehnike rudarjenja podatkov. Korak modeliranja se pogosto uporablja za določitev najboljše metode statistične analize, potrebne za doseganje želenih rezultatov.

Obstajajo štiri glavne tehnike, ki jih je mogoče uporabiti v procesu rudarjenja podatkov. Prva je klasifikacija, ki razporedi podatke v vnaprej določene skupine ali kategorije. Pri drugi tehniki, imenovani združevanje v grozde, raziskovalci omogočajo računalniku, da organizira podatke v skupine, kot jih izbere. Tretja tehnika rudarjenja podatkov išče povezave med spremenljivkami. Četrti običajno išče zaporedne vzorce v podatkih, ki se lahko uporabijo za napovedovanje prihodnjih trendov.
Zadnji korak v procesu rudarjenja podatkov je uvajanje. Za to se tehnike, izbrane v modelu, uporabijo za večji nabor podatkov in rezultati se analizirajo. Poročilo, ki izhaja iz tega koraka, običajno prikazuje vzorce, ki jih najdemo v celotnem procesu, vključno s kakršnimi koli klasifikacijami, grozdi, asociacijami ali zaporednimi vzorci, ki obstajajo v naboru podatkov.
Pregled je pogosto pomemben zadnji korak. Ta faza v procesu običajno vključuje ponavljanje modelov rudarjenja z novim naborom podatkov, da se zagotovi, da je glavni niz reprezentativen za celotno populacijo podatkov. Rezultati ne morejo napovedati trendov v večji populaciji, če je vzorec podatkov ne predstavlja natančno.