Kaj je ekstrakcija informacij?

Včasih znan kot pridobivanje informacij, je ekstrakcija informacij (IE) proces, ki se uporablja z računalniškimi sistemi, da se omogoči pridobivanje ustreznih podatkov iz večjih količin podatkov z uporabo določenega niza vnaprej določenih meril. Ideja ekstrakcije informacij je omogočiti enostavno identifikacijo in asimilacijo podatkov, ki so pomembni za določeno dejavnost, ne da bi bilo treba ročno pregledovati velike količine informacij, da bi našli natančne podatke. Postopek je podoben idejam rudarjenja konceptov ali spletnega strganja, saj si vsi ti pristopi prizadevajo zbrati koristne informacije iz širšega nabora razpoložljivih podatkov.

Splošni pristop k ekstrakciji informacij zahteva uporabo programiranja, ki je sposobno skenirati vire informacij, ki se štejejo za strojno berljive. To lahko vključuje dokumente v papirni obliki, ki so bili skenirani v nekakšne elektronske datoteke, dokumente, pripravljene kot preglednice ali dokumente za obdelavo besedil, ali celo podatke, ki so vsebovani v berljivih poljih v bazi podatkov. Običajno so nastavljeni parametri, ki omogočajo programskemu programu, da dobi dostop do teh virov podatkov in jih hitro pregleda s posebnimi merili, da določi prednost in izvleče določene vrste informacij iz razpoložljivega področja. Ta postopek se običajno razlikuje od preprostega postopka iskanja, saj metoda zahteva, da se določene besede ali besedne zveze same po sebi ne ujemajo, ampak namesto tega uporablja proces, imenovan obdelava naravnega jezika, ki pomaga ne le pri ocenjevanju dejanskih besed, ampak tudi konteksta in pomen, ki ga nakazuje ta kontekst.

Zaradi zapletenosti pridobivanja informacij je uporaba tega pristopa nekoliko težko obvladljiva v svetovnem merilu, čeprav obstajajo orodja IE, ki delujejo zelo dobro le z omejeno količino podatkov, kot so viri podatkov, povezani z elektronskimi datotekami, shranjenimi na strežnik korporacije ali celo skupek virov, ki vključujejo omejeno število virov novic. S tem pristopom je mogoče identificirati določeno vrsto dogodka, morda celo omejiti donose na vključitev določenega števila udeležencev v dogodek in podatke razporediti po datumu.

Kot pri mnogih oblikah tehnologije se orodja, ki se uporabljajo za pridobivanje informacij, nenehno izpopolnjujejo. Od začetka 21. stoletja se je sposobnost določanja parametrov in uporabe vedno večjih teles elektronskih podatkov v okviru iskanja ustreznih informacij močno povečala. To vključuje zmožnost obravnavanja velikih količin nestrukturiranih podatkov in uporabe teh parametrov za uvedbo nekega reda ali strukture v te podatke, zaradi česar so še bolj uporabni za prihodnja iskanja.