Rudarjenje besedil je postopek uporabe računalniške tehnologije za prebiranje besedilnih dokumentov za namene raziskav in analize. Pogosto se šteje za zelo podoben procesu, znanemu kot podatkovno rudarjenje, vendar se zanaša na posebno programiranje za iskanje v nekategoriziranem besedilu in iskanje pomena ali vzorcev, namesto da bi analiziral vnaprej kategorizirane informacije iz baze podatkov. Rudarjenje besedil ima veliko aplikacij na področjih, kot so znanost, trženje in organizacija podatkov.
Kompleksnost organiziranja besed v jezik je preveč ekstremna, da bi jo lahko obvladali računalniki, vendar so znanstveniki trdo delali, da bi izboljšali tovrstno programiranje. Razvite so bile številne metode, ki znanstvenikom omogočajo identifikacijo fraz in odkrivanje dejstev o besedilu. To na splošno ni enako kot popolno dešifriranje pomena, vendar omogoča bližnjice, ki dosegajo številne enake cilje. Rudarjenje besedila izkorišča nekatere od teh tehnik, in ko se ta tehnologija izboljšuje, se na splošno pričakuje, da se bo izboljšalo tudi rudarjenje besedila.
Strokovnjaki uporabljajo analizo besedilnih informacij predvsem za raziskovanje pisnih dokumentov. Velike količine pisnih podatkov je lahko težko analizirati zaradi ogromne količine potrebnega časa. Računalniki lahko gredo skozi to besedilo veliko hitreje, vendar ga ne razumejo. Tehnike rudarjenja besedil omogočajo računalnikom, da najdejo uporabne trende v besedilu, pri čemer podatke predstavijo na način, ki lahko razkrije nova dejstva ali strokovnjakom omogoči odkritja.
Primer uporabe te tehnologije bi bila tržna raziskava. Strokovnjaki bi lahko analizirali rezultate iskanja po imenu izdelka in dali program poiskati fraze, ki izražajo čustva uporabnikov. Na ta način lahko na zelo podroben način ugotovijo, kaj ljudje v resnici čutijo do njihovega izdelka. Prav tako so lahko preprosto poiskali svoj izdelek in videli, kateri stavki se najpogosteje pojavljajo, in to bi jim lahko pomagalo razviti nove ideje o tem, kako zadovoljiti svoje stranke.
Druga uporaba za rudarjenje besedil je analiza znanstvenih člankov o podobnih temah, ki iščejo nove trende ali dogovore. To je nekaterim znanstvenikom omogočilo napovedne predpostavke, ki so se izkazale za koristne na področjih, kot je analiza beljakovin. Nekateri strokovnjaki menijo, da lahko tovrstne aplikacije sčasoma zagotovijo nepričakovana odkritja.
Postopek, imenovan podatkovno rudarjenje, je pravzaprav precej podoben rudarjenju besedila, vendar je na splošno manj zapleten, ker se zanaša na besedilo, ki je že oblikovano v kategorije. Programska oprema bi lahko na primer pregledala vse informacije za kandidate za zaposlitev v bazi podatkov in iskala trende. Rudarjenje besedila je računalnikom težje izvesti, ker je čisto besedilo težje analizirati kot podatke s kategorijami.
SmartAsset.