Kaj so orodja za podatkovno rudarjenje?

Orodja za rudarjenje podatkov so programske komponente in teorije, ki uporabnikom omogočajo pridobivanje informacij iz podatkov. Orodja posameznikom in podjetjem omogočajo zbiranje velikih količin podatkov in njihovo uporabo za odločanje o določenem uporabniku ali skupinah uporabnikov. Nekatere najpogostejše uporabe orodij za podatkovno rudarjenje so na področju trženja, zaščite pred goljufijami in nadzora.

Ročno pridobivanje podatkov obstaja že več sto let. Vendar pa je avtomatizacija podatkovnega rudarjenja najbolj razširjena že od začetka računalniške dobe. V 20. stoletju so se pojavile različne računalniške znanosti, ki so pomagale podpreti koncept razvoja orodij za rudarjenje podatkov. Splošni cilj uporabe orodij je odkrivanje skritih vzorcev. Na primer, če marketinško podjetje ugotovi, da se oseba odpravi na mesečno potovanje iz New Yorka v Los Angeles, postane koristno, da to podjetje posamezniku oglašuje podrobnosti o destinaciji.

Znotraj industrije podatkovnega rudarjenja so bili vzpostavljeni standardi za opredelitev parametrov uporabe orodij za podatkovno rudarjenje. Posebna interesna skupina za odkrivanje znanja in rudarjenje podatkov (SIGKDD) Združenja za računalniške stroje letno sestane, da ugotovi, kateri procesi se uporabljajo. Ista skupina je odgovorna tudi za ocenjevanje etičnih posledic analize podatkov posameznikov in podjetij. Skupina izdaja letno revijo z naslovom SIGKDD Explorations.

Najbolj razširjeno orodje, ki se uporablja pri rudarjenju podatkov, je proces, imenovan odkrivanje znanja v bazah podatkov (KDD). KDD je leta 1989 razvil Gregory Piatetsky-Shapiro. Z uporabo tega orodja za rudarjenje podatkov lahko uporabniki obdelujejo neobdelane podatke, pridobivajo podatke za informacije in interpretirajo različne rezultate v obliki upravljanja informacij.

Ena najpomembnejših oblik orodij za podatkovno rudarjenje se uporablja za boj proti terorizmu v 21. stoletju. V Združenih državah Nacionalni raziskovalni svet uporablja koncepte vzorčnega rudarjenja in predmetnega rudarjenja podatkov za identifikacijo teroristične dejavnosti v velikem naboru informacij po vsem svetu. Rudarjenje vzorcev je opredeljeno s postopkom lociranja vzorcev znotraj velike količine podatkov. Podatkovno rudarjenje na podlagi predmetov poskuša identificirati odnose med posamezniki. Obe tehniki je mogoče uporabiti tudi v splošni poslovni praksi z opredelitvijo miselnosti baze strank in interaktivnega odnosa med strankami.