Kaj je akustični model?

Akustični model je v bistvu zemljevid glasu glede na vrsto natisnjenih besed. Ta tehnologija se uporablja v programih za prepoznavanje govora za pomoč računalniku pri učenju prepoznavanja govornih vzorcev osebe. Akustični model je ena od dveh glavnih datotek, potrebnih za zagon programa za prepoznavanje govora; drugi je jezikovni model, ki označuje verjetne besede in govorne vzorce, ki jih lahko uporablja govornik. Ti modeli so ustvarjeni s primerjavo zvočnih podrobnosti izgovorjene zvočne datoteke z besedilom izgovorjenih besed.

Programska oprema za prepoznavanje govora je programska oprema, zasnovana tako, da prepozna in prepiše ali se odzove na besede osebe. Številni operacijski sistemi so zasnovani z vgrajenimi osnovnimi zmožnostmi prepoznavanja govora, ki jih lahko uporabnik vklopi in izklopi. Zmogljivosti prepoznavanja govora v operacijskih sistemih običajno dajejo uporabniku možnost nadzora računalnika in vnašanja besed na zaslon s svojim glasom.

Za dostop do programske opreme za prepoznavanje govora uporabnik potrebuje mikrofon, da prenese svoj glas v računalnik, in program, ki obdeluje zvok. Medtem ko imajo številni računalniki vgrajene mikrofone, zunanji mikrofon slušalk uporabniku omogoča jasnejše glasovne zvoke in svobodo gibanja po prostoru med govorjenjem. Blagovne znamke samostojne programske opreme za prepoznavanje govora vključujejo LumenVox®, Loquendo® in Dragon®.

Večina programov za prepoznavanje govora ima programiranje akustičnega modela, ki omogoča programu, da prepozna spremembe v izgovorjavi. Za prepoznavanje besed v govoru uporabljajo vzorce v zvoku govorčevega glasu. Mnogi so zasnovani s programsko opremo za nastavitev, ki uporabniku pomaga ustvariti akustični model, zasnovan za interpretacijo lastnega glasu. Nekateri napredni programi za prepoznavanje govora lahko prepoznajo in razlagajo več jezikov, pogosto z majhno količino zvočnih informacij. Naprednejši kot je program za prepoznavanje govora, večja je verjetnost, da bo natančno interpretiral besede glede na kontekst, vključno s tem, kje v stavku je beseda izgovorjena.

Področje študija, ki razvija tehnologijo za prepoznavanje govora, se imenuje računalniška lingvistika. Računalniška lingvistika vključuje študij in načrtovanje, ki ustvarja programsko opremo, programirano za razumevanje človeškega govora. To področje pogosto vključuje informacije iz študija psihologije za ustvarjanje akustičnih modelov, ki lahko natančneje razlagajo govor.

Beseda “akustično” se na splošno nanaša na vse, kar je povezano z zvokom. Čeprav se akustični modeli najpogosteje uporabljajo pri prepoznavanju govora, se lahko uporabljajo tudi v glasbi. Akustični model glasbene skladbe lahko identificira lastnosti, kot so utripi na minuto, glasbene tipke ali prevladujoče višine v glasbi. Te informacije lahko računalniški program uporabi za identifikacijo glasbene skladbe ali pa jih uporabi za ohlapno določitev zvrsti, v katero je glasba verjetno kategorizirana. Akustični modeli se uporabljajo tudi na študijskem področju, imenovanem psihoakustika, v katerem raziskovalci upajo, da se bodo naučili strukturirati glasbo, ki predvidljivo vpliva na možgane.