Kaj je seznam frekvenc?

Seznam frekvenc je orodje za kvantitativno jezikovno analizo, seznam vsega, kar se pojavlja v izbranem bloku besedila in kako pogosto se pojavlja. Jezikovna analiza je meddisciplinarno področje, ki preučuje strukturo jezika in način njegove uporabe. Z združevanjem elementov antropologije, matematike, računalništva in logike se jezikovna analiza uporablja za projekte, kot so mehansko prevajanje, kriptografija in dešifriranje starodavnih spisov.

Seznami pogostosti so lahko seznami besed ali črk. V kriptografiji se običajno uporabljajo črkovne frekvence. Ena najpreprostejših kod je nadomestna šifra, kjer se vsaka črka nadomesti z drugo črko ali simbolom. Na primer, sporočilo »napad ob zori« je lahko kodirano kot »zoozhl zo azqp«. Prednost nadomestnih šifr je v tem, da ne potrebujejo šifrirne knjige, slabost pa je v tem, da jih je mogoče razbiti s primerjavo pogostosti črk in kombinacij črk v sporočilu s seznamom pogostnosti pogoste uporabe.

V The Adventure of the Dancing Men Arthurja Conana Doyla izmišljeni detektiv Sherlock Holmes uporablja frekvenčno analizo, da razbije nadomestno šifro. V preteklosti so izdelovalci kod poskušali različne trike, da bi svoje šifre težje razbili s seznamom frekvenc: vrtljive šifre, pri katerih je bila uporabljena zamenjava odvisna od položaja črke v sporočilu, odstranjevanje ali kodiranje presledkov, tako da frekvenc besed ni bilo mogoče uporabiti, ohranjanje sporočil kratke in izogibanje pričakovanim besedam, tako da razbijalci kod ne bi imeli dovolj vzorca za uporabo za frekvenčno analizo. Navsezadnje je mogoče vsako šifro zlomiti z dovolj velikim vzorcem, zato so bolj izpopolnjeni protokoli šifriranja postali standard.

Seznami pogostnosti besed in besednih vrst se uporabljajo tudi v študijah starodavnih jezikov. Ko je Jean-Francois Champollion v 1820-ih letih prevedel Rosettski kamen, je njegov postopek uporabil mešanico primerjave frekvenc in transliteracij, da bi združil hieroglifski jezik. Študije so pokazale, da za starodavne jezike, tako kot za sodobno angleščino, osrednji besednjak z 1,500 do 2,000 besedami pokriva 85-90 odstotkov običajnih besedil, raven, ki bralcu omogoča, da razširi svoj besedni zaklad iz konteksta.

Zipfov zakon, poimenovan po profesorju lingvistike s Harvarda Georgeu Kingsleyju Zipfu, je empirično opazovanje obnašanja ocen frekvenc. Navaja, da je pogostost dogodka obratno sorazmerna z uvrstitvijo dogodka. Dogodek je na splošno beseda ali črka na seznamu jezikovnih frekvenc, vendar je bil Zipfov zakon posplošen, da zajema druge pojave, kot so mestno prebivalstvo in zaslužki podjetij.

Seznam frekvenc je pomembno orodje v projektih, ki računalnikom pomaga razumeti govorjeni in pisni jezik. Mehansko prevajanje – uporaba računalnikov za prevajanje dokumentov iz enega jezika v drugega – je en primer. Drug primer je Watson, superračunalnik v naravnem jeziku, ki je bil predstavljen kot tekmovalec v televizijski oddaji Jeopardy! februarja 2011. Frekvence besed in vrst uporabe so vključene v njihovo programiranje kot orodje za iskanje pomena.