Kaj je klasifikacija dokumentov?

Tako kot mora spletni brskalnik organizirati podatke, da lahko uporabniki najdejo rezultate za iskanje, klasifikacija dokumentov omogoča organizacijam, da poenostavijo iskanje pomembnih informacij. Kategorizacija dokumenta se izvaja drugače kot pri uporabi algoritmov iskalnikov, ker imajo lahko določene ključne besede različne pomene. Takšna metoda mora biti sposobna oceniti kontekst posebnih poslovnih dokumentov. Z nadzorovano klasifikacijo dokumentov uporabnik označi nabor dokumentov, ki jih lahko avtomatizirani sistem uporabi kot model. Pri nenadzorovani metodi so matematično organizirani na podlagi podobnih besed in besednih zvez.

Uporabnik ima največji nadzor nad klasifikacijo dokumentov, ko se uporablja klasifikacija, ki temelji na pravilih. Kontekst, kategorije in pravila so ustvarjeni glede na to, kar je ročno vneseno. Med postopkom pridobivanja dokumenta je vse kategorizirano po natančnih pravilih, ki jih je določil uporabnik. Tudi med nadzorovano metodo je treba dodeliti kategorije. Korak dejanskega zapisa pravil, ki naj bi jih iskalni sistem sledil, pa se zaključi samodejno.

Z združevanjem dokumentov v grozde, imenovanim tudi nenadzorovana klasifikacija, se vse skupine in kategorije izvajajo samodejno. Ni ročnega vnosa pravil, ki so lahko koristna in škodljiva. Ta postopek prihrani čas, saj ni treba pisati pravil, pogosto pa se najdejo podobni dokumenti, ki sprva niso veljali za podobne. Slaba stran je, da se dokumenti lahko pojavijo skupaj, ki prvotno niso bili mišljeni v isti kategoriji. Bolj avtomatiziran pristop je tudi bolj obdavčen za računalniške sisteme.

Da bi našli ravnovesje med obema različnima metodama, so računalniški strokovnjaki zasnovali metodo delno nadzorovane klasifikacije dokumentov. Dokumenti, ki so ročno razvrščeni v kategorije, so združeni z nizi dokumentov, ki niso označeni. Programi, ki lahko povežejo informacije iz obeh, uporabljajo podatke, da se naučijo, kako je vsak dokument razvrščen. Pri pridobivanju informacij pomaga določen nadzor nad postopkom razvrščanja. Združevanje dokumentov v gruče je učinkovitejše, če se za njihovo združevanje lahko uporabljajo fraze, na primer z združevanjem dreves s priponami, zlasti za dokumente, ki so shranjeni v spletu.

Informacijska znanost je raziskala različne načine za učinkovitejše rudarjenje podatkov. Večina podjetij je povezanih z internetom, zato mora biti spletno rudarjenje čim manj zamudno, da se najdejo ustrezni dokumenti. Računalniški znanstveniki so ustvarili tudi več različnih algoritmov za hierarhično organizacijo dokumentov. Vsaka je učinkovita na svoj način in klasifikacijo dokumentov se še naprej preučuje in definira z različnimi programi in korporativnimi metodami po meri.