Kako izberem najboljšo programsko opremo za OCR?

Programska oprema za optično prepoznavanje znakov (OCR) je programska oprema, zasnovana za prevajanje slik besedila v dejansko besedilo, ki ga lahko bere računalnik. Na splošno se uporablja po tem, ko je bila slika skenirana v računalnik, čeprav se lahko uporabijo tudi druge oblike vnosa. Programska oprema OCR najbolje deluje na besedilu, ki je že vtipkano, bodisi v primerih, ko je bil izvirni izpis izgubljen, ali pri skeniranju listov, vtipkanih na pisalni stroj. Dobra programska oprema lahko tudi prevede ročno napisano besedilo, čeprav je stopnja napak pri tovrstni pretvorbi ponavadi veliko višja.

Dejanski izraz programska oprema OCR je nekoliko zavajajoč, saj večina sodobnih različic dejansko ne uporablja optičnega prepoznavanja znakov, ampak dejansko uporablja digitalno prepoznavanje znakov. To je zato, ker so se pred nekaj leti področja učinkovito združila in sta obe področji sprejeli privlačnejši izraz optično prepoznavanje znakov. Programska oprema OCR je v zadnjih letih zelo napredovala, saj so sodobni programi bistveno boljši od svojih predhodnikov pri prepoznavanju besedila.

Pravzaprav je zgodnja programska oprema za OCR zahtevala usposabljanje programa za določeno pisavo, preden je bilo mogoče natančno vnesti. Podobno bi bilo treba pri vnašanju rokopisa program usposobiti, proces, ki bi lahko bil izjemno dolgotrajen. Vendar so se metode izboljšale in bolj inteligentni sistemi so zdaj norma. Uporabljene metode so zdaj razmeroma statične, le malo raziskav gre za razvoj povsem novih metod, večina raziskav pa za izboljšanje obstoječih postopkov, da postanejo vedno bolj natančne. Zgodnje različice programske opreme so bile uporabljene v številnih aplikacijah, pri čemer so jih velike korporacije uporabljale za branje odtisov kreditnih kartic v 1950-ih, poštna služba Združenih držav Amerike pa jih je uporabljala za razvrščanje pošte od sredine 1960-ih.

Pred desetimi leti je bila izbira programske opreme OCR težka, saj je bilo veliko programov pri določenih nalogah precej slabih, pri drugih pa dokaj dobrih. Te dni pa je bilo polje v veliki meri izenačeno. Stopnje točnosti v kateri koli dobri programski opremi za prevajanje vtipkanih latiničnih črk so nad 99 %. Ko pa gre za vnos rokopisa ali bolj zapletenih pisav, ima programska oprema OCR še vedno razmeroma velik razpon.

Tudi stroški programske opreme OCR močno nihajo, pogosto glede na stopnjo natančnosti, s katero se ponaša. Najdemo lahko precej brezplačne programske opreme, ki je primerna za vnos tiskovin, in nekaj, ki so razmeroma dobre pri zaznavanju rokopisa, zlasti z nekaj usposabljanja. Dražji programski paketi, kot je paket OmniPage, ki stane okoli 100 dolarjev (USD) za domačo različico in okoli 450 dolarjev za profesionalno različico, se ponašajo z impresivno paleto funkcij in na splošno višjimi stopnjami uspeha.
Na žalost še vedno ne obstaja popolna programska oprema za OCR, zato je izbira programa za nakup lahko še vedno v veliki meri frustrirajoči proces. Tudi najboljši programi bodo verjetno imeli težave z rokopisom, napake pa bodo neizogibno prišle skozi, tudi na nizkih ravneh. Večinoma je izbira programa za nakup omejena na dodatne funkcije: večjezična podpora, skeniranje z enim dotikom in integracija pretvorbe, samodejno pretvorbo PDF in prepoznavanje celotne besede v specializiranih disciplinah, kot so pravna in medicinska področja.