Kaj je obdelava naravnega jezika?

Obdelava naravnega jezika (NLP) je način prevajanja med računalniškimi in človeškimi jeziki. Cilj tega področja je omogočiti računalnikom, da razumejo, kaj besedilo pravi, ne da bi dobili natančne vrednosti in enačbe za podatke, ki jih besedilo vsebuje. V bistvu obdelava naravnega jezika avtomatizira proces prevajanja med človeškim in računalniškim jezikom. Medtem ko se velik del tega področja opira na statistiko in modele za določitev verjetnih pomenov besedne zveze, obstaja in je bilo veliko različnih pristopov k tej težavi. Ugotovitve na tem področju se uporabljajo na področjih prepoznavanja govora, prevajanja v človeški jezik, pridobivanja informacij in celo umetne inteligence.

Obdelava naravnega jezika, ki se razvija iz ozadja računalništva in jezikoslovja, se sooča s številnimi težavami, ker jezik ni vedno dosleden in vsi namigi o pomenu niso vsebovani v jeziku samem. Celo popoln prikaz celotne slovnice jezika, vključno z vsemi izjemami, ne omogoča vedno, da računalnik razčleni informacije, ki jih vsebuje besedilo. Nekateri stavki so skladenjsko dvoumni, besede imajo pogosto več kot en pomen, nekatere kombinacije zvokov ali simbolov pa spremenijo svoj pomen glede na meje besed – vse to je lahko težave za računalnik, ki ne razume konteksta. Še pomembneje je, da je velik del jezika odvisen od povezave s fizičnim in družbenim vesoljem – nekateri stavki, kot so govorna dejanja, ne posredujejo toliko informacij, kot delujejo na svet. Tudi če računalnik odlično razume sintakso in semantiko človeškega jezika, mora besedilo, ki ga je treba analizirati, biti brez človeških naprav, kot sta sarkazem ali pasivna agresija, da lahko računalnik pravilno ugotovi, kaj besedilo pomeni.

Ideološko je obdelava naravnega jezika sistem interakcije med človekom in računalnikom, ki ga vodi ideja, da je večini uporabnikov računalnikov bolj udobno delati z računalniki v človeškem jeziku, ki ga že poznajo, kot pa prilagajati računalniškemu jeziku. Prav tako izkorišča dejstvo, da je velik del človeškega znanja že kodiran v človeškem jeziku, besedila, ki vsebujejo to znanje, pa je mogoče prevesti v logične strukture, ki jih je mogoče racionalizirati za računalnik. Medtem ko se številni projekti na tem področju ukvarjajo z izločanjem računalniško berljivih podatkov iz besedil v človeškem jeziku, se obdelava naravnega jezika uporablja tudi za ustvarjanje človeku berljivih besedil iz računalniških podatkov. Obe možnosti za razumevanje in ustvarjanje lahko uporablja ista tehnologija, na primer v primeru aplikacij, ki prevajajo iz enega človeškega jezika v drugega, tako da najprej dekodirajo besedilo v računalniški jezik, nato pa ga kodirajo v drugem človeškem jeziku. Inovacije, pridobljene v prizadevanjih za obdelavo naravnega jezika, so prav tako presenetljivo uporabne za projekte umetne inteligence zaradi stopnje, do katere je človeku podobna inteligenca opredeljena z obvladovanjem zapletenosti človeškega jezika.