Kaj je klasifikacija podatkovnega rudarjenja?

Klasifikacija podatkovnega rudarjenja je en korak v procesu rudarjenja podatkov. Uporablja se za združevanje predmetov na podlagi določenih ključnih značilnosti. Za klasifikacijo rudarjenja podatkov se uporablja več tehnik, vključno s klasifikacijo najbližjih sosedov, učenjem drevesa odločanja in stroji podpornih vektorjev.

Podatkovno rudarjenje je metoda, ki jo raziskovalci uporabljajo za pridobivanje vzorcev iz podatkov. Na splošno se iz zbirke podatkov izbere reprezentativni vzorec, nato pa se z njim manipulira in analizira, da se najdejo vzorci. Poleg klasifikacije podatkovnega rudarjenja lahko raziskovalci za analizo podatkov uporabljajo tudi združevanje v skupine, regresijo in učenje pravil.

Obstaja več algoritmov, ki se lahko uporabljajo pri klasifikaciji podatkovnega rudarjenja. Klasifikacija najbližjega soseda je eden najpreprostejših algoritmov za razvrščanje podatkovnega rudarjenja. Zanaša se na komplet za usposabljanje. Nabor za usposabljanje je niz podatkov, ki se uporablja za usposabljanje računalnika, da bo pozoren na določene spremenljivke. Pri klasifikaciji najbližjega soseda računalnik preprosto razvrsti vse podatke kot del skupine, ki vsebuje podatke, ki so po vrednosti najbližji vhodu.

Učenje drevesa odločitev uporablja model razvejanja za razvrščanje podatkov. Računalnik v bistvu postavlja vrsto vprašanj o podatkih. Če je odgovor na prvo vprašanje resničen, postavlja vprašanje 2a. Če je odgovor napačen, postavi vprašanje 2b. Ko se izvleče, ta metoda tvori drevo razvejanih poti.

Naivna Bayesova klasifikacija temelji na verjetnosti. Postavi vrsto vprašanj o vsakem podatku in nato z odgovori uporabi za določitev verjetnosti, da podatki spadajo v določeno klasifikacijo. To se razlikuje od učenja drevesa odločitev, ker odgovor na prvo vprašanje ne vpliva na naslednje vprašanje.

Bolj zapletene metode klasifikacije podatkovnega rudarjenja vključujejo nevronske mreže in podporne vektorske stroje. Te metode so računalniško podprti modeli, ki bi jih bilo težko narediti ročno. Nevronske mreže se pogosto uporabljajo pri programiranju umetne inteligence, ker posnemajo človeške možgane. Filtrira informacije skozi vrsto vozlišč, ki najdejo vzorce in nato razvrstijo informacije.
Podporni vektorski stroji uporabljajo vadbene vzorce za izgradnjo modela, ki bo razvrstil informacije, običajno vizualizirane kot razpršeni diagram s širokim razmikom med kategorijami. Ko se nova informacija vnese v stroj, se izriše na grafu. Podatki se nato razvrstijo glede na kategorijo, kateri so informacije na grafu najbližje. Ta metoda deluje le, če lahko izbirate med dvema možnostma.