Kaj je korelacijsko združevanje?

Korelacijska gruča se izvaja v bazah podatkov in drugih velikih virih podatkov, da združi podobne nabore podatkov, hkrati pa uporabnika opozori na različne nabore podatkov. To je v nekaterih grafih mogoče narediti odlično, medtem ko bodo pri drugih prišlo do napak, ker bo težko ločiti podobne podatke od različnih. V primeru slednjega bo korelacijsko združevanje pomagalo samodejno zmanjšati napako. To se pogosto uporablja za rudarjenje podatkov ali za iskanje podobnosti v okornih podatkih. Različni podatki se običajno izbrišejo ali dajo v ločeno gručo.

Ko se uporablja funkcija korelacijskega združevanja v gruče, išče podatke na podlagi uporabniških navodil. Uporabnik bo programu povedal, kaj naj išče in, ko ga najde, kam naj postavi podatke. To se običajno uporablja za zelo velike vire podatkov, ko bi bilo nemogoče – ali trajalo preveč ur – ročno iskanje po podatkih. Obstaja lahko popolno ali nepopolno združevanje.

Popolno združevanje v skupine je idealen scenarij. To pomeni, da obstajata samo dve vrsti podatkov in ena je tisto, kar uporabnik išče, druga pa ni potrebna. Vsi pozitivni ali potrebni podatki so umeščeni v eno gručo, drugi podatki pa se izbrišejo ali premaknejo. V tem scenariju ni zmede in vse deluje brezhibno.

Večina zapletenih grafov ne omogoča popolnega združevanja v skupine in so namesto tega nepopolni. Na primer, graf ima tri spremenljivke: X, Y in Z. X,Y je podoben, X,Z je podoben, vendar so Y,Z različni. Vendar so tri spremenljive skupine tako podobne, da je nemogoče imeti popolno korelacijsko gručo. Program bo deloval tako, da bo povečal število pozitivnih korelacije, vendar bo to še vedno zahtevalo nekaj ročnega iskanja od uporabnika.

Pri rudarjenju podatkov, zlasti pri obravnavi velikih podatkovnih nizov, se korelacijsko gručenje uporablja za združevanje podobnih podatkov s podobnimi podatki. Na primer, če je podjetje pridobilo podatke za veliko spletno mesto ali bazo podatkov in želi vedeti samo o določenem vidiku, bi iskanje po vseh podatkih za ta vidik trajalo večno. Z uporabo formule za združevanje v skupine bodo podatki razvrščeni za ustrezno analizo.

Različne informacije se obravnavajo izključno na podlagi uporabniških navodil. Uporabnik se lahko odloči za pošiljanje različnih podatkov različnim grozdom, ker so informacije lahko koristne za druge projekte. Če so podatki nepotrebni in samo zapravljajo pomnilnik, se različne informacije vržejo ven. Pri nepopolnem združevanju v gruče je možno, da nekatere različne informacije ne bodo vržene ven, ker so tako podobne podatkom, ki jih uporabnik išče.