Programska oprema za rudarjenje podatkov je orodje, ki se uporablja za prepoznavanje vzorcev v velikih nizih podatkov. To področje računalniške programske opreme se je v zadnjih nekaj letih močno razširilo, saj podjetja iščejo načine za prevajanje velikih količin informacij v uporabne informacije za sprejemanje odločitev. Sposobnost jasnega prepoznavanja vzroka in posledice, vzorcev človeškega vedenja, trendov in drugih meritev je osrednjega pomena za pravilno vodenje katerega koli podjetja. Prednosti programske opreme za rudarjenje podatkov so večini uporabnikov jasne, toda splošna poslovna skupnost slabo razume, kako pridobiti želene informacije in kako natančno deluje proces.
Obstajajo trije vidiki programske opreme za rudarjenje podatkov, ki opisujejo proces: pretvorba neobdelanih podatkov, skripte za programiranje rudarjenja in interpretacija. Ta proces je znan tudi kot odkrivanje znanja v bazah podatkov (KDD) in se uporablja za opis vseh vidikov rudarjenja podatkov, vključno s strukturo podatkov, metodami dostopa do podatkov in arhitekturo sistema. Obstaja vrsta podjetij, ki ponujajo programsko opremo za rudarjenje podatkov in dobro razumevanje konceptov, ki poganjajo ta izdelek, je bistveno za uspešno in ustrezno uporabo tehnologije.
Prva zahteva za uporabo katere koli programske opreme za rudarjenje podatkov je pretvorba neobdelanih podatkov v ciljni nabor podatkov. Na primer, neobdelani podatki so zbirka podatkov o vsej prodaji, obdelani v širokem časovnem okviru. Ciljni nabor podatkov ima samo podatke, ki izpolnjujejo določeno merilo. To lahko vključuje transakcije, obdelane v določenem časovnem okviru. V specifikacije nabora podatkov so vključena posamezna polja, ki so vključena. To lahko vključuje datum transakcije, način plačila, lokacijo trgovine, opis izdelka in število kupljenih izdelkov.
Ko so specifikacije nabora podatkov določene, se podatki očistijo, da se odstranijo odvečne informacije, šum ali nepopolne podatkovne datoteke. Ta proces običajno zahteva uporabo veščin programiranja, tehnik upravljanja s podatki in splošno razumevanje osnovnih konceptov podatkov. Podatkovni trg ali podatkovno skladišče je najpogostejše orodje, ki se uporablja za shranjevanje podatkovnih tabel na način, do katerega lahko zlahka dostopa programska oprema za rudarjenje podatkov.
Dejanske programske skripte za rudarjenje podatkov je mogoče prilagoditi ali pa lahko programerji uporabijo standardne skripte, vključene v programski paket za rudarjenje podatkov. Velika večina programov za rudarjenje podatkov uporablja regresijsko analizo, mehko logiko in algoritme za prepoznavanje posebnih vzorcev, ki ustrezajo uporabniškim specifikacijam. Interpretacija rezultatov zahteva človeško posredovanje, čas in spretnosti v statistiki, prepoznavanju vzorcev in s tem povezanimi matematičnimi spretnostmi. Pomembno si je zapomniti, da lahko program vrne le možnosti, ki temeljijo na specifikacijah, ki jih zagotovi uporabnik. Slabo definirane specifikacije in nizka kakovost podatkov bodo negativno vplivali na veljavnost rezultatov.