Katere so različne metode podatkovnega rudarjenja?

Obstaja vrsta različnih metod rudarjenja podatkov, ki se uporabljajo tako v programskih možnostih kot v teoretičnih konceptih. Te uporabnikom omogočajo pridobivanje informacij iz podatkov, ki jih zberejo posamezniki in podjetja z uporabo različnih orodij. Velike količine podatkov se lahko uporabijo za določitev različnih dejavnikov pri posameznem predmetu ali različnih subjektih. Te metode podatkovnega rudarjenja se najpogosteje uporabljajo na področju zaščite pred goljufijami, trženja in nadzora.

Za pridobivanje informacij od subjektov se že več sto let uporabljajo metode podatkovnega rudarjenja. Sodobne tehnike pa uporabljajo avtomatizirane koncepte za zagotavljanje obsežnih podatkov prek računalniških virov. Ko se je računalništvo pojavilo v 20. stoletju, se je koncept metod rudarjenja podatkov razvil v prizadevanju za premagovanje skritih vzorcev v velikih območjih zbranih podatkov. Dober primer tega je, ko oglaševalsko podjetje analizira nakupovalne vzorce spletne stranke. To podjetje lahko nato trži določene izdelke, ki bi jih posameznik morda zanimal za nakup.

Ena od tehnik rudarjenja podatkov, ki se pogosto uporablja v industriji, se imenuje odkrivanje znanja v bazah podatkov (KDD). KDD, ki ga je leta 1989 razvil Gregory Piatetsky-Shapiro, uporabnikom omogoča obdelavo neobdelanih podatkov, analizo informacij za potrebne podatke in interpretacijo rezultatov. Ta metoda omogoča uporabnikom, da najdejo vzorce v algoritmih, vendar splošni podatki niso vedno točni in jih je mogoče združiti na kompromisne načine. To je znano kot preobremenitev.

Osnovne metode rudarjenja podatkov vključujejo štiri posebne vrste nalog: klasifikacijo, združevanje v skupine, regresijo in povezovanje. Razvrstitev vzame prisotne informacije in jih združi v določene skupine. Združevanje v skupine odstrani definirane skupine in omogoči, da se podatki razvrstijo po podobnih postavkah. Regresija se osredotoča na funkcijo informacije, modelira podatke na koncept. Končna metoda rudarjenja podatkov, povezava, poskuša najti razmerja med različnimi viri podatkov.

Pri uporabi različnih metod rudarjenja podatkov se uporabljajo določeni standardi za določitev, kateri parametri se lahko uporabljajo v procesu. Posebna interesna skupina Združenja za računalniške stroje za odkrivanje znanja in rudarjenje podatkov (SIGKDD) organizira letno srečanje, na katerem ugotavlja, kateri postopki so primerni. Etični dejavniki se pretehtajo skupaj s praktičnimi aplikacijami za iskanje najboljših informacij o posameznikih in podjetjih. Te informacije so objavljene v industrijski reviji, imenovani SIGKDD Explorations.