Kaj je glasovno prepoznavanje?

Prepoznavanje glasu ali prepoznavanje govora je računalniška tehnologija, ki uporablja zvočni vhod za vnos podatkov in ne tipkovnice. Govorjenje v mikrofon, na primer, daje enak rezultat kot ročno tipkanje besed s tipkovnico. Preprosto povedano, programska oprema za prepoznavanje glasu je zasnovana z interno bazo podatkov prepoznavnih besed ali besednih zvez. Program poveže zvočni podpis govora z ustreznimi vnosi v bazi podatkov.

Čeprav se spreminjanje govora v besedilo morda sliši enostavno, je to izjemno težka naloga. Težava je v tako rekoč neskončnem naboru posameznih govornih vzorcev in naglasov, ki jih dopolnjuje naravna človeška težnja po povezovanju besed.

Različni modeli programske opreme za prepoznavanje govora se uporabljajo za vrsto aplikacij, od osebnega narekovanja do komercialnega avtomatiziranega usmerjanja klicev, od pomoči invalidom do podnaslavljanja športnih dogodkov in novic. Vsak model se obnaša drugače in ima svoje zmožnosti in meje.

Programi za prepoznavanje glasu, ki od uporabnika zahtevajo, da programsko opremo “usposobi” za prepoznavanje njegovih posebnih stiliziranih vzorcev govora, se imenujejo sistemi, odvisni od zvočnika. Posamezniki te vrste programov običajno uporabljajo doma ali v pisarni. E-pošto, beležke, pisma, podatke in besedilo lahko vnesete z govorjenjem v mikrofon.

Nekateri sistemi za prepoznavanje glasu, imenovani diskretni govorni sistemi, zahtevajo, da uporabnik govori jasno in počasi ter loči besede. Sistemi neprekinjenega govora so zasnovani tako, da razumejo bolj naraven način govora.
Diskretni govorni sistemi se pogosto uporabljajo za usmerjanje storitev za stranke. Sistem je neodvisen od govorca, vendar razume le majhen nabor besed ali besednih zvez. Klicatelj ima možnost izbire, da odgovori na vprašanje, običajno z “da” ali “ne”. Po prejemu odgovora sistem stopnjeva klicatelja na naslednjo raven. Če klicatelj odgovori z edinstvenim odgovorom, je avtomatski odgovor običajno: »Oprostite, nisem vas razumel; prosimo, poskusite znova,« s ponovitvijo vprašanja in razpoložljivimi odgovori. Ta vrsta prepoznavanja glasu se imenuje tudi slovnično omejeno prepoznavanje.

Neprekinjen govor je bolj izpopolnjena oblika programske opreme za prepoznavanje glasu, pri kateri lahko klicatelj govori naravno, da razloži težavo ali zahteva storitev. Ta program je zasnovan za izbiro ključnih besed ali besednih zvez in statistično najboljšo ugibanje o tem, kaj želi stranka. Jasno govorjenje pomaga programu pri prepoznavanju potreb. Ta vrsta sistema ima veliko bolj intenzivno bazo podatkov kot sistemi diskretnega govora in se imenuje tudi prepoznavanje naravnega jezika.

Automatic Speech Recognition (ASR) je model glasovnega prepoznavanja, zasnovan za narekovanje. Ta programska oprema se od prejšnjih modelov razlikuje po tem, da ne stremi k razumevanju povedanega, temveč le za identifikacijo izgovorjenih besed. Ker veliko besed v angleškem jeziku zveni podobno, se zlahka naredijo napake. Programsko opremo ASR pogosto najdemo na digitalnih diktafonih.