Kaj je korpus besedila?

Besedilni korpus je zbirka besedil, govorjenih ali pisnih, ki so osnova za korpusno lingvistično raziskovanje. Shranjevanje teh velikih bank besedil omogoča raziskovalcem, da analizirajo različne vidike katerega koli jezika. Besedilni korpus je učinkovit način za izvajanje raziskav, saj ga je mogoče uporabiti za raziskovanje različnih jezikovnih vprašanj, vključno z morfologijo, skladnjo, besediščem in pragmatiko. Za razliko od starejših metod izvajanja jezikoslovnih raziskav, korpus besedil omogoča raziskovalcem, da pogledajo na jezik glede na to, kako se dejansko uporablja v kontekstu, ne pa kako bi ga hipotetično lahko uporabili. Jezikoslovci imajo običajno dostop do veliko večjih vzorcev podatkov kot takrat, ko so se morali omejiti na podatke, ki bi jih lahko zbrali v omejenem časovnem obdobju z omejenimi finančnimi sredstvi.

Korpusi so običajno shranjeni v računalniku, zato je mogoče ustvariti računalniške programe za olajšanje raziskav. Eden od običajnih načinov uporabe korpusa besedil je štetje skupnega števila besed v besedilih, nato preštevanje in razvrščanje, kolikokrat so se določene besede pojavile. Razmerje, ki se ustvari med številom skupnih besed in določenimi besedami, je znano kot Zipfov zakon. To razmerje pomaga razložiti pogostost besed v jeziku. Razumevanje Zipfovega zakona pomaga računalniškim programerjem oblikovati računalniško programsko opremo, ki ustreza zahtevam določenega jezika. Lahko preštejejo in napovedujejo, kako pogosto bodo določene besede in besedne zveze uporabljene kot vhod.

Drug način uporabe besedilnega korpusa je, da v njem označite določene elemente, ki jih želi raziskovalec preučiti. Primer, kako bi to uporabili, je štetje, kolikokrat se pasivni glas pojavi v različnih besedilnih zvrsteh. Označevanje je bilo koristno tudi pri ustvarjanju računalniških programov, ki pomagajo ljudem v njihovem vsakdanjem življenju. Označevanje z delom govora je ključnega pomena za razvoj programske opreme za prepoznavanje glasu. V angleščini, na primer, ima lahko ista beseda več kot en del govora. Večzložne besede so pogosto različno poudarjene, da nakažejo, kateri del govora se uporablja. Samostalnik “predmet” ima poudarek na prvem zlogu, glagol “predmet” pa je poudarjen na drugem zlogu. Označevanje samostalniške oblike »predmet« pomaga računalniškemu programu, da ga pravilno prebere na glas in prepozna, ko človek reče »predmet«.

Korpusi besedil so uporabni tako za človeško jezikoslovje kot za računalniško jezikoslovje. Omogočajo izvedbo raziskav, ki ljudem pomagajo bolje razumeti jezik, ki ga uporabljajo ljudje, kar posledično pomaga razviti jezik, ki ga uporabljajo računalniki. Velik korak je bil narejen v tehnologiji prepoznavanja glasu, ki potrošnikom omogoča verbalno upravljanje računalnikov v svojih pisarnah, domovih in vozilih. Nenehni napredek bo ljudem omogočil, da komunicirajo z računalniki tako naravno kot med seboj.