Kaj je Data Mining?

Podatkovno rudarjenje uporablja sorazmerno veliko računalniško moč, ki deluje na velikem naboru podatkov, da določi pravilnosti in povezave med podatkovnimi točkami. Algoritmi, ki uporabljajo tehnike iz statistike, strojnega učenja in prepoznavanja vzorcev, se uporabljajo za samodejno iskanje velikih podatkovnih baz. Podatkovno rudarjenje je znano tudi kot odkrivanje znanja v bazah podatkov (KDD).

Tako kot izraz umetna inteligenca je tudi podatkovno rudarjenje krovni izraz, ki ga je mogoče uporabiti za številne različne dejavnosti. V svetu podjetij se podatkovno rudarjenje najpogosteje uporablja za določanje smeri trendov in napovedovanje prihodnosti. Uporablja se za izgradnjo modelov in sistemov za podporo odločanju, ki ljudem dajejo informacije, ki jih lahko uporabljajo. Podatkovno rudarjenje ima glavno vlogo v boju proti terorizmu. Uporabljen naj bi bil za določitev vodje napadov 9. septembra.

Rudarji podatkov so statistiki, ki uporabljajo tehnike z imeni, kot so modeli bližnjih sosedov, združevanje k-sredstev, metoda zadržanosti, k-kratna navzkrižna validacija, metoda izpuščanja in tako naprej. Regresijske tehnike se uporabljajo za odštevanje nepomembnih vzorcev, pri čemer ostanejo le koristne informacije. Izraz Bayesian je pogosto viden na tem področju in se nanaša na razred tehnik sklepanja, ki napovedujejo verjetnost prihodnjih dogodkov z združevanjem predhodnih verjetnosti in verjetnosti, ki temeljijo na pogojnih dogodkih. Filtriranje neželene pošte je verjetno oblika rudarjenja podatkov, ki samodejno pripelje na površje ustrezna sporočila iz kaotičnega morja poskusov lažnega predstavljanja in Viagre.

Drevesa odločitev se uporabljajo za filtriranje gora podatkov. V drevesu odločanja gredo vsi podatki skozi vhodno vozlišče, kjer se soočajo s filtrom, ki loči podatke v tokove glede na njihove značilnosti. Na primer, podatki o vedenju potrošnikov bodo verjetno filtrirani na podlagi demografskih dejavnikov. Podatkovno rudarjenje se ne nanaša predvsem na modne grafe in tehnike vizualizacije, vendar jih uporablja, da pokaže, kaj je odkrilo. Znano je, da lahko več statističnih informacij absorbiramo vizualno kot verbalno in ta oblika predstavitve je lahko zelo prepričljiva in močna, če se uporablja v pravem kontekstu.

Ker naša civilizacija postaja vse bolj nasičena s podatki in senzorji so množično razporejeni v naša lokalna okolja, bomo nehote odkrili stvari, ki bi jih lahko zamudili ob prvem prehodu. Podatkovno rudarjenje nam bo omogočilo, da popravimo te napake in odkrijemo nova spoznanja, ki temeljijo na preteklih podatkih, kar nam bo omogočilo več denarja za shranjevanje podatkov.