Programska oprema za prepoznavanje govora je močno napredovala, odkar je bila prvič izumljena, vendar ima še vedno več velikih težav, ki preprečujejo, da bi se uporabljala izključno kot metoda prepisovanja. Nekatere težave pri prepoznavanju govora, ki jih je težko rešiti, vključujejo razlike v izgovorjavi besed, posameznih naglasov, homonimov in neželenih zvokov iz okolice. Drug niz težav pri prepoznavanju govora vključuje vrsto strojne opreme, ki se uporablja za dejansko vnos zvoka, saj lahko rezultati močno vplivajo na to, kako bo programska oprema razlagala govor. Obstaja tudi problem nepoznavanja konteksta izgovorjenih besed, kar lahko vodi do besedila, ki nima ločil ali netočnega črkovanja.
Ena najosnovnejših težav pri prepoznavanju govora je kakovost uporabljenih vhodnih naprav. Če mikrofon ni dovolj občutljiv – ali je preveč občutljiv –, lahko ustvari zvočne informacije, ki jih programska oprema težko dešifrira. To še posebej velja, če je mikrofon tako občutljiv, da je govor popačen, zaradi česar je programska oprema za prepoznavanje skoraj neuporabna. Podoben problem izvira iz hrupa v ozadju, ki ga je lahko problematično ločiti od glavnega govora in lahko povzroči netočne prevode, če je vključen v obdelavo govora.
Razlike v izgovorjavi, naglasih in govorni kadenci se združijo, da tvorijo eno izmed bolj razširjenih težav pri prepoznavanju govora. Ko je mogoče eno besedo izgovoriti na več načinov, se lahko programska oprema zmede in napačno razlaga, kar je bilo povedano. Enako se lahko zgodi, ko oseba govori počasneje ali hitreje, kot pričakuje program. Obstaja nekaj delnih rešitev, kot je usposabljanje programske opreme v govornih vzorcih posameznega uporabnika in uporaba dinamičnih algoritmov časovnega upogibanja za uskladitev govora z zbirko vzorcev, vendar ne rešijo vseh težav.
Najbolj zapletena težava pri prepoznavanju govora je prepoznavanje konteksta izgovorjenih besed. Računalniška programska oprema ne more prepoznati predvidenega pomena zbirke besed, kar vodi do številnih težav s prepisanim besedilom. Besede, ki imajo podoben zvok, kot sta »njihov« in »tam«, je mogoče natančno črkovati le, če je znan kontekst uporabe. Iz istega razloga je programska oprema skoraj nemogoče postaviti natančna ločila na podlagi poznavanja zaporedja besed. Obstaja funkcionalna programska oprema za prepisovanje, ki se uporablja na področjih, kot je medicina, vendar je rezultat pogosto blok besed brez kakršne koli ločitve, kar pomeni, da je še vedno potreben človeški transkripcionist, da uredi dokument in ustvari berljivo končno kopijo.