Kaj je nadzorovano besedišče?

Nadzorovano besedišče je koncept računalništva in računalniškega programiranja, ki vključuje uporabo samo predhodno dogovorjenih ali odobrenih izrazov pri izdelavi relacijskih baz podatkov, metapodatkov, ki jih je mogoče iskati, ali drugih sistemov, v katerih se za označevanje informacij za kasnejše iskanje uporabljajo človeku berljive besede. Metodologija uporabe kontroliranega besedišča za razvrščanje informacij je v neposrednem nasprotju s konceptom besedišča naravnega jezika, v katerem ni dogovorjenih izrazov in so vse uporabljene besede povezane s tehtanimi razmerji. Poleg besed na najvišji ravni, ki se uporabljajo v nadzorovanem besednjaku, je mogoče uporabiti podporne besede, tako da lahko sopomenke ali drugi izrazi, ki so močno povezani z izrazom na najvišji ravni, sprožijo uporabo besede na najvišji ravni. Glavne razlike, ki se merijo med sistemi naravnega jezika in sistemi nadzorovanega besedišča, so ustreznost rezultatov poizvedbe z uporabo besed, količina vrnjenih informacij in splošna uporabnost sistema.

Obstaja veliko primerov, v katerih se uporablja zbirka besed ali izrazov, da so informacije, ki so poljubne, se nenehno spreminjajo ali neorganizirane, bolj dostopne uporabnikom. Iskalni izrazi v spletnem iskalniku, podatkovni bazi podatkov podjetja in celo digitalni raziskovalni knjižnici so vsi primeri aplikacij, prek katerih je mogoče informacije kategorizirati z metapodatkovnimi izrazi v nasprotju s strogo hierarhično strukturo. Besede, ki se uporabljajo za opis predmeta v takih situacijah, tvorijo nekakšen iskani indeks večjega bazena informacij.

En primer uporabe kontroliranega besedišča je mogoče videti, ko razmišljamo o sistemu arhiviranja za podjetje. Datoteke morajo biti kategorizirane na način, da jih je enostavno in predvidljivo priklicati. Če ena datoteka obravnava avtomobile, bi jo lahko vložili v kategorijo “avtomobili”. Če ima tudi druga oseba datoteko, ki se ukvarja z avtomobili, brez nadzorovanega besednjaka, bi lahko datoteko postavili pod naslov »avtomobili«, zaradi česar bo dve datoteki težko najti z enim samim iskanjem. Ko so kategorije nadzorovane, bi bile vse datoteke, ki se ukvarjajo z avtomobili, uvrščene v enotno dogovorjeno postavko.

Prednost uporabe nadzorovanega besednjaka je, da so informacije strogo opisane na predvidljiv način. To pomeni, da bo vsak, ki se zaveda besedišča, lahko učinkovito in natančno iskal informacije. Zaplet pri besednjaku pa je, da je iskalne izraze težje, če ne celo nemogoče ustvariti samodejno in običajno zahtevajo nekaj človeškega posredovanja, zaradi česar je pretvarjanje obstoječih baz podatkov v nadzorovan besednjak velika naloga. Če besednjak ni dovolj velik, obstaja tudi možnost, da ena sama poizvedba prinese tako veliko količino informacij, da postane nepraktično razvrščanje brez uporabe druge metode poizvedovanja.