Določanje vsebine se zgodi, ko se oseba, skupina ali program odloči, katere informacije naj bodo vključene ali izključene v dokumentu ali besedilu. Povezan je s koncepti strukturiranja dokumentov. Povezan je tudi z generiranjem naravnega jezika in računalniško lingvistiko. Vsako področje študija uporablja določanje vsebine, da preuči, kako so informacije izbrane.
Ko preučuje, kaj vnesti v dokument ali besedilo, bo prevajalec opravil svojo raziskavo ali pa bo dobil vse razpoložljive podatke. Določitev vsebine zajema načine, kako se te informacije zmanjšajo v končni dokument. To se naredi tako, da se ugotovi, kakšen je kot ali cilj besedila in katere informacije v besedilu so za to pomembne.
Drugi vidik določanja vsebine je njen slog. To je običajno odvisno od narave ciljnega občinstva. Intelekt občinstva in poznavanje vsebine bosta spremenila leksično gostoto in kompleksnost posredovanih informacij. Akademiki bodo na primer ustvarjali gostejša besedila kot trač revije. Drugi dejavniki vključujejo velikost formata, ne glede na to, ali bo to knjiga, članek ali besedilno sporočilo.
Vsako stanje vsebine določi človek. Tu sta raziskovalec in pisatelj, ki sta pogosto, a ne vedno, ista oseba, nato pa urednik oziroma urednika. Vsaka raven ima mnenje o tem, katera vsebina je pomembna za cilj besedila. Računalniški jezikoslovci in računalniški inženirji so iskali načine za reprodukcijo tega sistema z uporabo računalniških programov, namesto da bi se zanašali na ljudi.
Obstajajo tri računalniške tehnike, ki jih uporabljajo računalniki glede določanja vsebine. ‘Tehnika sheme’ temelji na pregledu pisnih besedil. Predhodno pregledana besedila uporablja kot osnovo za to, katere informacije vključiti v besedilo, ki nastaja. ‘Statistična’ metoda samodejno določi vsebino na podlagi množice splošnih statistik. “Izrecno sklepanje” uporablja umetno inteligenco (AI) za preučevanje in filtriranje informacij.
Splošni cilj določanja vsebine je razumeti, kako nastajajo dokumenti, da jih je mogoče reproducirati z uporabo računalnikov. Rezultat takšnega uspeha bo računalnik, ki bo sposoben sprejemati podatke, jih filtrirati in izdelati povzetke najpomembnejših informacij. Računalnik ne bo temeljil na takih dokumentih le na informacijah, ampak tudi na ciljih besedila, ki se izdela. V smislu teorije kitajske sobe to lahko pomeni, da je računalnik sposoben razumeti podatke, namesto da bi jih lahko repliciral in izračunal.