Statistično rudarjenje podatkov, znano tudi kot znanje ali odkrivanje podatkov, je računalniška metoda zbiranja in analize informacij. Orodje za rudarjenje podatkov vzame podatke in jih kategorizira, da odkrije vzorce ali korelacije, ki jih je mogoče uporabiti v pomembnih aplikacijah, kot so medicina, računalniško programiranje, poslovna promocija in robotsko oblikovanje. Tehnike statističnega rudarjenja podatkov uporabljajo zapleteno matematiko in zapletene statistične procese za izdelavo analize.
Podatkovno rudarjenje vključuje pet glavnih korakov. Prva aplikacija za rudarjenje podatkov zbira statistične podatke in jih postavi v program skladiščnega tipa. Nato se podatki v skladišču organizirajo in ustvarijo sistem upravljanja. Naslednji korak ustvari način za dostop do upravljanih podatkov. Nato četrti korak razvije programsko opremo za analizo podatkov, znano tudi kot regresija rudarjenja podatkov, medtem ko zadnji korak olajša uporabo ali interpretacijo statističnih podatkov na praktičen način.
Na splošno tehnike podatkovnega rudarjenja integrirajo analitične in transakcijske podatkovne sisteme. Analitična programska oprema razvršča obe vrsti podatkovnih sistemov z uporabo odprtih uporabniških vprašanj. Odprta vprašanja omogočajo nešteto odgovorov, tako da programerji ne vplivajo na rezultate razvrščanja. Programerji ustvarijo sezname vprašanj, ki pomagajo pri kategorizaciji informacij s splošnim fokusom.
Razvrščanje nato temelji na razvoju razredov in grozdov podatkov, povezav, ki jih najdemo v podatkih, in poskusih definiranja vzorcev in trendov na podlagi asociacij. Google na primer zbira podatke o nakupovalnih navadah uporabnikov, da jim pomaga pri oglaševanju na spletu. Odprta vprašanja, ki se uporabljajo za razvrščanje teh podatkov o kupcu, se osredotočajo na nakupne preference ali gledalske navade uporabnikov interneta.
Računalniški znanstveniki in programerji se osredotočajo na analizo zbranih statističnih podatkov. Ustvarjanje drevesa odločitev, umetne nevronske mreže, metoda najbližjega soseda, indukcija pravil, vizualizacija podatkov in genetski algoritmi uporabljajo statistično pridobljene podatke. Ti klasifikacijski sistemi pomagajo pri interpretaciji asociacij, ki jih odkrijejo programi analitičnih podatkov. Statistično rudarjenje podatkov vključuje majhne projekte, ki jih je mogoče izvesti v majhnem obsegu na domačem računalniku, vendar je večina nizov povezav za rudarjenje podatkov tako velikih in regresija podatkovnega rudarjenja tako zapletena, da zahtevajo superračunalnik ali mrežo hitrih računalnikov.
Statistično rudarjenje podatkov zbira tri splošne vrste podatkov, vključno z operativnimi podatki, neoperativnimi podatki in metapodatki. V trgovini z oblačili so operativni podatki osnovni podatki, ki se uporabljajo za vodenje poslovanja, kot so računovodstvo, prodaja in nadzor zalog. Neoperativni podatki, ki so posredno povezani s poslovanjem, vključujejo ocene prihodnjih prodaj in splošne informacije o nacionalnem trgu oblačil. Metapodatki se nanašajo na podatke same. Program, ki uporablja metapodatke, lahko razvrsti stranke shramb v klasifikacije na podlagi spola ali geografske lokacije kupcev oblačil ali najljubše barve strank, če so bili ti podatki zbrani.
Aplikacija za rudarjenje podatkov je lahko izjemno sofisticirana in orodje za statistično rudarjenje podatkov ima lahko široko praktične aplikacije. En primer je študija izbruhov bolezni. Projekt rudarjenja podatkov iz leta 2000 je analiziral izbruh bolezni kriptosporidija v Ontariju v Kanadi, da bi ugotovil vzroke za povečanje števila primerov bolezni. Rezultati podatkovnega rudarjenja so pripomogli k povezovanju izbruha bakterij z lokalnimi vodnimi razmerami in pomanjkanjem ustreznega čiščenja komunalne vode. Področje, imenovano “bionadzor”, uporablja epidemiološko rudarjenje podatkov za prepoznavanje izbruhov posamezne bolezni.
Računalniški programerji in oblikovalci uporabljajo tudi študij verjetnosti in statistične analize podatkov za razvoj strojev in računalniških programov. Internetni iskalnik Google je bil zasnovan s pomočjo statističnega rudarjenja podatkov. Google še naprej zbira in uporablja podatkovno rudarjenje za ustvarjanje posodobitev programov in aplikacij.