Kaj je prepoznavanje poimenovanih entitet?

Čeprav je z vidika končnega uporabnika postopek vnosa podatkov v računalnik dokaj preprost, postopek dejansko sproži več drugih manjših procesov. Za vsak podatek mora računalnik te informacije prevesti v jezik, ki ga razume. Računalniki uporabljajo notranji jezik, znan kot binarni, v katerem se tvori zbirka znakov “1” in “0”, ki računalniku pove, kaj naj naredi. Prepoznavanje poimenovane entitete je metoda poenostavitve postopka prevajanja od vnosa do podatkov, ki pomaga računalniku pri razbijanju stavkov na njihove sestavne dele.

Ko vnesete podatke z večino računalniških programov ali spletnih strani, vas program ali spletna stran običajno zahteva, da v vsako polje vnesete določen podatek, na primer polji »Ime« ali »Naslov«. Program za prepoznavanje poimenovanih entitet odpravlja večino tega in omogoča končnemu uporabniku, da namesto tega vnaša nize – stavke – besedila, kar zagotavlja bolj naraven vmesnik. Program vzame podatke, ki ste jih vnesli, in jih razvrsti na koščke, ki jih lahko lažje razume.

Vzemite stavek, kot je “Joe je naročil štiri bušele banan.” V tradicionalnem programu bi moral končni uporabnik vnesti »Joe« v polje »Ime zaposlenega«, »Banane« v polje »Vrsta nakupa«, »štiri« v polje »Količina« in »bušele« v polje “enote”. V nastavitvi za prepoznavanje poimenovane entitete bi končni uporabnik preprosto vnesel celoten stavek, kot je napisan. Takoj, ko uporabnik klikne »Pošlji«, računalnik razvrsti stavek na koščke in izvede enako razčlenitev podatkov, kot bi jih uporabnik prej uporabil.

Čeprav je to veliko bolj poenostavljeno kot tradicionalni vhodni program, zasnovan iz polj, obstaja ena bistvena pomanjkljivost: možna napaka algoritma prevajanja. Manj inteligentni algoritmi za prepoznavanje poimenovanih entitet lahko stavek “razumejo” le na en specifičen način. Z drugimi besedami, če bi zaposleni preoblikoval stavek in napisal »Joe je naročil štiri vreče banan«, bi lahko imel program težave pri razumevanju in razvrščanju delov. Iz tega razloga, čeprav končni uporabnik ni več odgovoren za vnos podatkov v polja, še vedno ni tako proste oblike, kot se zdi sistem na prvi pogled.