Kaj je strukturno rudarjenje?

Strukturno rudarjenje je vrsta podatkovnega rudarjenja, pri katerem se skenira delno strukturiran vir podatkov, odkrijejo in poudarijo elementi njegove strukture. Polstrukturiran vir podatkov je tisti, ki ne uporablja tradicionalne strukture podatkovne baze tabel, ima pa semantični element, ki ločuje informacije prek oznak in označevalcev. Strukturno rudarjenje se lahko uporablja za rudarjenje baz podatkov, spletnih mest in številnih drugih oblik računalniških informacij za odkrivanje elementov strukture. Uporabnikom pomaga razumeti, kako deli medsebojno delujejo ali kako najti informacije pod določenimi oznakami. To rudarjenje se lahko uporablja tudi za napovedovanje, kaj je predmet, na podlagi pravil, ki jih je napisal uporabnik.

Obstaja veliko različnih vrst rudarjenja podatkov, večina pa se ukvarja z rudarjenjem tradicionalno strukturiranega vira. To vključuje kateri koli vir, ki uporablja tabele in vozlišča, značilne za večino baz podatkov. Pri strukturnem rudarjenju se uporabljajo samo delno strukturirani podatki. V tem primeru so podatki s spletnih mest ali preprostih baz podatkov, ki imajo strukturo, ki pa ni v skladu s tradicionalnimi pravili baze podatkov. Podatki potrebujejo oznake ali označevalnike, ki ločijo vsak element, da se pravilno rudarijo.

Z branjem polstrukturiranega nabora podatkov lahko strukturno rudarjenje odkrije, kako struktura deluje. Vsako spletno mesto ima na primer navigacijski model in ta model določa, kako strani delujejo. Z rudarjenjem strukture lahko uporabnik odkrije, kako ta navigacija deluje, kar lahko pomaga pri ustvarjanju podobne navigacijske sheme.

Strukturno rudarjenje se lahko uporablja tudi za iskanje predmetov z zapisovanjem pravil v program rudarjenja. Na primer, če obstaja nabor podatkov o knjigi, lahko uporabnik napiše pravilo, da naj se vse knjige brez indeksa vrnejo kot leposlovje, tiste z indeksom pa kot neumetnost. Večina leposlovnih knjig nima indeksa, zato bo to pravilo z visoko natančnostjo napovedalo, kakšni so podatki. To uporabnikom pomaga pri ogledu polstrukturiranega niza, ki ima organizacijsko metodo, vendar ne takšne, ki ustreza tistemu, kar išče uporabnik.

Ko ugotovi strukturo polstrukturirane enote, jo uporabnik običajno primerja z drugo polstrukturirano enoto. Če ima uporabnik poslovno spletno mesto, lahko izkoplje drugo poslovno spletno mesto za navigacijo in povezave ter si ogleda, kako je njegovo spletno mesto podobno. S primerjavo pridobljenih informacij lahko uporabnik najde načine za povečanje učinkovitosti strukture.