Kaj je leksična gostota?

Leksikalna gostota se nanaša na razmerje med leksikalnimi in funkcionalnimi besedami v katerem koli besedilu ali zbirkah besedil. Je veja računalniške lingvistike in lingvistične analize. Povezan je z besediščem, znanimi besedami vsakega posameznika in se lahko uporablja za primerjavo govorjenega in pisnega leksikona katere koli osebe. Leksikon se od celotnega besedišča razlikuje, ker ne vključuje funkcionalnih besed, kot so zaimki in delci.

Gostota govora ali besedila se izračuna s primerjavo števila leksikalnih besed in števila funkcionalnih besed. Kratke stavke in majhna besedila je mogoče izračunati z uporabo miselne aritmetike ali s preprostim štetjem. Večje primerjave, recimo Charlesa Dickensa ali Williama Shakespeara, naredimo tako, da informacije vnesemo v računalniški program. Program bo besedilo razdelil na funkcionalne in leksikalne besede.

Uravnotežena leksikalna gostota je približno 50 odstotkov. To pomeni, da je polovica vsakega stavka sestavljena iz leksikalnih besed, polovica pa iz funkcionalnih besed. Besedilo z nizko gostoto bo imelo razmerje manj kot 50:50, besedilo z visoko gostoto pa več kot 50:50. Akademska besedila in vladni dokumenti, napolnjeni z žargonom, ponavadi ustvarijo največjo gostoto.

Ena pomanjkljivost pri izračunu leksikalne gostote je, da ne upošteva različnih oblik in primerov sestavnih besed. Statistična analiza je namenjena le preučevanju razmerja med besednimi vrstami. Ne proizvaja študija leksikalnega znanja enega posameznika. Če bi se, bi analiza leksikalne gostote razlikovala med oblikama, kot sta “dati” in “dati”. Teoretično lahko leksikalno gostoto uporabimo za besedila, da bi preučili pogostost določenih leksikalnih enot.

Osebnemu pisnemu leksikonu lahko pomagamo z uporabo slovarjev in tezavrov. Takšna orodja zagotavljajo nadomestne besede in pojasnjujejo pomene. Ko govori, se mora človek zanašati samo na svoj miselni besednjak. To pomeni, da se lahko leksikalna gostota uporablja kot orodje za primerjavo govorjenega in pisnega leksikona. Leksikalna gostota govorjenih jezikov je ponavadi nižja kot pri pisnem besedilu.

Računalniška lingvistika je področje statističnega modeliranja jezikoslovne analize. Rodila se je iz hladne vojne in ameriške želje po uporabi računalnikov za prevajanje besedil iz ruščine v angleščino. To je zahtevalo uporabo matematike, statistike, umetne inteligence in računalniškega programiranja. Največja težava za programerje je bila pridobiti računalnik, da razume kompleksno slovnično in jezikovno pragmatiko. To je povzročilo teorijo Kitajske sobe, da lahko računalniki izvajajo dobesedne prevode besed, na koncu pa ne morejo razumeti jezikov.