Kaj je distribucijska hipoteza?

Distribucijska hipoteza postavlja idejo, da so besede z enakim pomenom združene v besedilih. Ideja preučuje besede glede njihovega pomena in njihove porazdelitve po besedilu. To se nato primerja z distribucijo besed s podobnimi ali sorodnimi pomeni. Takšni pregledi ugotavljajo, da se besede pojavljajo skupaj v njihovem kontekstu zaradi podobnih ali sorodnih pomenov.

Distribucijsko hipotezo je prvi predlagal britanski jezikoslovec JR Firth. Znan je po najbolj znanem citatu o ideji “V podjetju, ki ga vodi, boste vedeli besedo.” Firth, ki je znan tudi po svojih študijah o prozodiji, je verjel, da noben sistem nikoli ne bi razložil, kako jezik deluje. Namesto tega je verjel, da bo potrebnih več prekrivajočih se sistemov.

Ameriški jezikoslovec Zellig Harris je gradil na Firthovem delu. Želel je uporabiti matematiko za študij in analizo jezikovnih podatkov. Njegove ideje o prispevku matematike k tovrstnemu študiju so pomembne, znan pa je tudi po tem, da je v svojem življenju pokrival širok spekter jezikoslovnih idej.

Študije distribucijske hipoteze so del preučevanja jezikoslovja. Za prebiranje velikih količin jezikovnih podatkov se uporabljajo matematične in statistične metode, ne jezikovne. To torej pomeni, da je distribucijska hipoteza del računalniške lingvistike in statistične semantike. Povezan je tudi z idejami jezikoslovcev in jezikoslovnih filozofov o razvoju maternih jezikov pri otrocih, procesu, znanem kot usvajanje jezika.

Statistična semantika uporablja matematične algoritme za preučevanje porazdelitve besed. Te rezultate nato filtriramo po pomenu in jih nadalje preučimo, da ugotovimo porazdelitev besed, povezanih po pomenu. Obstajata dve glavni metodi statistične semantike: porazdelitev po besednih skupinah in po območju besedila.

Preučevanje porazdelitve besed po skupinah sorodnih pomenov se imenuje Hyperspace Analog to Language (HAL). HAL preučuje razmerja med besedami, združenimi v besedilu. To je lahko znotraj stavka ali znotraj odstavka, vendar le redko dlje od tega. Semantična porazdelitev besed je odvisna od tega, kako pogosto se besede pojavljajo ena poleg druge.
Študije celotnega besedila uporabljajo latentno semantično analizo (LSA). To je metoda obdelave naravnega jezika. Besede z bližnjim pomenom se bodo v besedilu pojavljale blizu ena drugi. Takšna besedila se preverjajo glede grozdov z uporabo matematične metode, imenovane dekompresija singularne vrednosti (SVD).

Podatki, zbrani iz študij v distribucijsko hipotezo, se uporabljajo za preučevanje gradnikov semantike in besednih razmerij. Če presegamo strukturalistični pristop, je hipotezo mogoče uporabiti za umetno inteligenco (AI). To bi računalniškim programom pomagalo bolje razumeti razmerje in porazdelitev besed. Ima tudi posledice za to, kako otroci obdelujejo besede in ustvarjajo besedne zveze in stavke.