Kaj je sinteza govora?

Sinteza govora je proces, pri katerem se verbalna komunikacija replicira s pomočjo umetne naprave. Računalnik, ki pretvarja besedilo v govor, je ena vrsta sintetizatorja govora.

Najzgodnejše oblike sinteze govora so bile izvedene s pomočjo strojev, zasnovanih tako, da delujejo kot človeški vokalni trakt. Primer je govorni stroj, ki ga je ustvaril Wolfgang von Kempelen v 1700-ih. S to napravo se je govor proizvajal skozi kuhinjski meh, trst za gajde in zvonec za klarinet. Kuhinjski meh je bil zasnovan tako, da deluje kot pljuča, medtem ko je glotis (območje glasilk) predstavljen skozi trs za gajde. Zvonec za klarinet je služil kot usta.

Delovanje naprave je bilo popolnoma ročno. Desna roka je upravljala vrsto vzvodov, leva pa je upravljala zvonec klarineta (usta). Obstajala je tudi možnost zamašitve ‘nosnic’, da bi proizvedli manj nosnega zvoka. Kakorkoli že, dokler so bile osnovne kontrole pravilno uporabljene, je stroj prejemal pretok zraka. Ta zračni tok je določal vrste zvokov, ki se bodo proizvajali.

Kasnejši govorni stroji v 18. in 19. stoletju so ohranili to nastavitev, čeprav so bile izboljšave. Na primer, v poznih 1800-ih je Joseph Faber ustvaril govorni stroj, ki je lahko sprejemal vhod prek tipkovnice in pedala. Stroj je bil tudi zelo kreativen, saj je zvok prihajal skozi umeten ‘obraz’.

Ko je prišlo 20. stoletje, so inovacije v elektroniki omogočile sintezi govora še močnejšo smer. Čeprav je bila premisa posnemanja človeškega vokalnega trakta še vedno enaka, so lahko govorni stroji v začetku 20. stoletja proizvedli boljše zvoke, saj je bil vnos natančnejši.

Vendar pa je bilo šele s prihodom računalnikov mogoče sintezo govora dejansko uporabljati zunaj zabavne arene. To je predvsem zato, ker bi lahko sintetizatorje govora shranili v programsko opremo namesto v ločeni stroj. Poleg tega bi lahko z uporabo računalnikov kot pomoči sinteza govora dobila drugačno obliko; uporaba človeških glasov kot glavnega vira zvoka.

Ta oblika sinteze govora je znana kot konkatenativno. Postopek deluje tako, da povezuje različne posnetke človeškega govora. Nastali zvok je veliko bolj naraven in prijeten za uho. To je v nasprotju s programi, ki uporabljajo artikulacijsko sintezo, kjer se govor replicira preko računalniškega modela vokalnega trakta.
Komercialni sintetizatorji govora lahko uporabljajo bodisi konkatenativne bodisi artikulacijske metode, vendar lahko oba dosežeta isti cilj; da bi ljudem dali priložnost slišati besedilo. To je še posebej koristno v situacijah, ko je branje moteče ali nemogoče.

V poslovnem svetu so takšne situacije zelo pogoste, predvsem pri telefonskih transakcijah. Brez možnosti za pretvorbo besedila v govor (TTS) bi morali lastniki podjetij porabiti denar za najem še več osebja za pomoč strankam. Sintetizirane rešitve se temu problemu izognejo, saj vse dela računalnik; ne človek.
Sintetiziran govor igra vlogo tudi v vsakdanjem življenju, zlasti pri posameznikih, ki so invalidi. Govorne ure, slovarji in druge naprave lahko olajšajo stvari ljudem, ki imajo težave z vidom ali branjem. Sintetiziran govor je sposoben celo dati glas posameznikom, ki sploh niso mogli govoriti. Steven Hawking, slavni fizik, je izjemen primer. Ker je Lou Gehrig zaradi bolezni nem, Hawking uporablja glasovni sintetizator za komunikacijo z ljudmi.

Na voljo so tudi aplikacije TTS, ki pomagajo ljudem pri različnih računalniških dejavnostih. Za pridobitev tovrstnih aplikacij bo večina uporabnikov morala kupiti ločeno programsko opremo ali prenesti popravke. Slednja možnost je običajno brezplačna, odvisno od uporabljenega operacijskega sistema ali programa za obdelavo besedil. Če pa se oseba odloči za nakup ločene programske opreme, bi lahko imela dostop do bolj kakovostnega sistema. Posebne primere si lahko ogledate v Natural Readerju 7 in Text Aloud 2.
Konec koncev je sinteza govora tehnologija, ki je spremenila način komuniciranja človeštva. V nekem smislu daje besedilu svoje življenje. Svetu daje tudi priložnost, da sliši misli briljantnih posameznikov, ki bi običajno bili brez glasu.