Kaj je govorni korpus?

Govorni korpus, znan tudi kot govorni korpus, je zbirka govorov, ohranjenih v zvočni ali besedilni obliki. Te zbirke so uporabne pri razvoju govorne programske opreme in pri izvajanju jezikoslovnih študij. Dve vrsti govornega korpusa sta spontani govor in brani govor.
Pomembno je opredeliti, kaj pomenita besedi »govor« in »korpus«. Govor obsega zbirke misli in dejstev, običajno v izgovorjeni obliki. Vsako izgovorjeno izjavo lahko obravnavamo tudi kot govor. Korpus pa se sklicuje na formalno zbirko različnih informacij.

Uporabniki običajno ustvarijo korpus govora bodisi z zvočnimi posnetki bodisi s prepisi, ki temeljijo na besedilu. Posnetki so lahko narejeni s pomočjo tehnologij za shranjevanje zvoka in shranjeni – pogosto kot datoteke MP3 v elektronskih zbirkah podatkov – za ustvarjanje korpusa. Prepisovalec pa govorjeni govor pretvori v pisno obliko, ki se nato sestavi z drugimi transkripcijami.

V govornem korpusu je mogoče najti katero koli vrsto govora, vendar so takšne baze podatkov na splošno razdeljene v dve kategoriji. Prvi, spontani govor, vsebuje neformalne govore, ki bi jih oseba lahko imela, na primer tiste, ki jih najdemo v pogovorih ali pri ustnem pripovedovanju zgodb. Prebrani govori pa imajo bolj formalizirano in vnaprej načrtovano strukturo. Primeri lahko vključujejo politične govore, oddaje novic in branja zvočnih knjig. Nekatere sorte so lahko odvisne od posebnega konteksta, na primer intervjuji.

Ena od glavnih prednosti orodij za govorni korpus je njihova praktična uporabnost pri ustvarjanju programske opreme, ki temelji na govoru. Na primer, številni računalniki in druge elektronske naprave ponujajo funkcije prepoznavanja govora kot možnost, kot je branje nazaj vtipkanega besedila, preoblikovanje izgovorjenih besed v besedilo ali prepoznavanje govorca po edinstvenih glasovnih lastnostih. Izvlečki iz govornega korpusa bi lahko pomagali pri izboljšanju te tehnologije z uporabo matematično utemeljenih nizov statistik, imenovanih akustični modeli, za vsak posamezen zvok. Poleg tega lahko baze podatkov pomagajo pri razvoju zvočnih trakov za učenje jezikov.

Te funkcije so povezane z drugo aplikacijo za govorni korpus. Namreč, učenjaki lahko vzamejo te ohranjene zvočne ali pisne datoteke in preučijo subtilne slovnične različice, ki sestavljajo jezik. Zato lahko govorni korpus služi kot dragoceno orodje za spoznavanje izgovorjave, besednega reda in drugih jezikovnih modelov. Raziskovalci lahko nadalje primerjajo podobnosti in razlike v različnih regionalnih narečjih in jezikih, če ustvarijo zbirko z več jeziki ali večjezični korpus. Vrednotenje korpusov, ki vključujejo govor, je specializirana raziskovalna koncentracija, znana kot korpusna lingvistika, njeno računalniško izvajanje pa se imenuje računalniška lingvistika.

Številne baze podatkov prepisov vključujejo zapise ali oznake, ki vsebujejo informacije o posameznih komponentah v delu besedila. Ta postopek se imenuje anotacija. V procesu abstrakcije bodo jezikoslovci dokumentirali in prevedli različne izraze v govoru. Takšen prispevek je lahko koristen, če želi posameznik spoznavati neznane civilizacije skozi besedila. Zadnji korak študija korpusa vključuje analizo ali izpeljavo primerjav in teoretičnih idealov iz zbirke govornih komponent.