Mnogi zahodnjaki verjamejo, da se kitajščina nanaša na en sam jezik in da so razlike v izgovorjavi enakovredne dialektičnim razlikam, ki jih najdemo pri angleško govorečih, ki živijo v južnih državah, in tistih, ki živijo v severnih državah. Čeprav na desetine kitajskih različic uporabljajo isti nabor leksikalnih elementov in iste slovnične strukture, govornik z enega območja morda popolnoma ne more ustno komunicirati z govorcem z drugega. To ni zato, ker vsak meni, da je naglas drugega preveč debel, ampak zato, ker vse kitajske besede niso sestavljene le iz fonemov ali zvočnih enot, temveč nosijo svoj pomen tudi prek tonov ali višine, pri kateri se beseda izgovarja. Prepisovalci uporabljajo številko tona in ime tona za izgovorjeno frazo z uporabo enega od več zahodnih metod transkripcije.
Z več kot 845 milijoni govorcev je mandarinščina daleč najbolj uporabljen jezik na svetu. Mandarin, tako kot vsi kitajski jeziki, ki se pogosto imenujejo kitajska narečja, vključuje tone, ki določajo pomen besede. Ton številka ena se imenuje jin ping in je enakomeren zvok, ki se niti ne dviga niti upada. Ton številka dva, yang ping, se rahlo spusti na sredino besede, nato pa se vrne v prvotno višino. Shang je tretji ton in tudi on pade, vendar bolj dramatično kot yang ping, četrti in zadnji ton v mandarinščini, qu, pa se začne na visoki točki in pade.
Mandarin in drugi kitajski jeziki so enozložni; ker vsi jeziki omejujejo število fonemov, je vključitev višine v vsako kitajsko besedo nujna, sicer ne bi bilo dovolj fonemskih kombinacij, ki bi zadostovale. Angleščina, tako kot drugi večzložni jeziki, ni tonska iz preprostega razloga, ker ni potrebna. Z uporabo samo 40 fonemov angleški leksikon vsebuje več kot 250,000 besed; to je mogoče, ker angleščina dovoljuje več zlogov, nove besede pa združujejo korenine s priponkami in preuredijo zvoke.
V mandariščini je en zlog beseda in če temu zlogu damo štiri tone, v katerih se lahko uporablja, en zlog dejansko postane štiri različne besede. To je morda dovolj zapleteno, da marsikateremu zahodnjaku preseneti misli, vendar tajvanski, drugi kitajski jezik, doda štiri dodatne številke tonov za skupno osem, kantonščina pa devet različnih tonov.
Pomembno je omeniti, da za razliko od mnogih drugih jezikov vsi kitajski jeziki ali narečja niso abeceda, ki temelji na svoji pisni obliki. En znak predstavlja eno besedo in vsaka beseda je en zlog. To pomeni, da bo mandarinska izjava, ki jo je mogoče izgovoriti v tonu številka ena, tonu številka dva in tonu številka štiri, napisana s tremi različnimi in nepovezanimi znaki. Na ta način lahko govorec kantonščine in tajvanski govorec prebereta isto besedilo in ga v celoti razumeta, vendar ga bosta izgovorila precej drugače.