再造華夏-為什麼漢語是世界上最先進的語言之一

為什麼漢語是世界上最先進的語言之一（第二版）轉

首先要承認標題隻是個噱頭，語言學一般認為語言沒有先進落後之分。大家都有自己的看法，見仁見智吧。但是總看到有人在爭論到底漢語是先進還是落後。雖然我不是專業人士，但是就用點通訊和存儲上的概念來聊聊為什麼漢語是一種非常先進的語言。需要注意的是，雖然以下的論證都是基於實際的實驗數據，但是計算都很粗糙，而且實驗的規模都不大。換句話說就是，雖然在這裏漢語占優，但是換一批實驗參與者，可能就倒過來了。現在實在沒有什麼特別全麵的測試。所以下麵的數字大家看看就行，不必太過認真。世界主要語言的效率其實都已經達到當前人腦的一個瓶頸了，總體看差異不大。我的目的也主要是打擊一下逆向民族主義者。

一、語言水平高低的評判準則

口語，放在今天來分析，實際上是一種通訊協議。就是說，語言實際上是把人的思想通過發音器官變成一串頻率不同、波形不同的聲波，然後有另一個個體的聽覺器官和相關的腦部組織重新轉變回思想。通訊協議，就是一個規則，一個規定了應該如何把思想/信息轉變為易於傳輸的信號的規則。計算機上，通訊協議基本上有這麼兩個評判標準：傳輸效率和抗噪能力。所謂傳輸效率，是說，在單位時間裏，按照該通訊協議能夠傳輸多少信息。所謂抗噪能力，是說這種通訊方式能夠在多大的噪音下仍然保證絕大多數信息正確傳輸。

傳輸效率又有兩個方麵，一個是編碼效率，一個是傳輸速度。編碼效率是說，這個通訊協議能夠把一個信息用多短的一串信號來表達。傳輸速度是說一段信號，能夠以多快的速度傳輸。

評價一種語言的口語是否先進，就要分析上麵這幾個問題。

文字，則是一種數據存儲方式。存儲格式的要求與通訊協議不同。存儲格式要求存空間小、讀寫速度快。相比於讀取速度，書寫速度是次要的。這是因為平均下來一次書寫對應很多次閱讀，而人在閱讀文字上花的時間一般遠遠大於書寫。尤其是現代社會，手寫越來越少，計算機輸入、打印、印刷都大大加快了記錄文字的速度。而閱讀速度卻沒有多少提升。因此在現代社會，閱讀速度就在定義文字水平上占據了更重要的地位。

需要注意的是，下麵的討論中“音節”均采用西方語言學定義。粗略地講就是一組連續元音與其前後的輔音共同構成一個音節。比如To、Bliss、Strength是單音節，漢語Ba、Chuang也是單音節。雖然單音節詞的發音長度並不完全相同，但至少是可比的。

二、語言的分類

這個世界上的語言大致分為兩種，一種叫做分析語（或稱孤立語），一種叫做綜合語（其下又劃分為黏著語、屈折語等子類型）。簡單地說，綜合語可以通過改變詞的形態來表達不同的意思。而分析語則單純通過詞與詞之間的關係來表達不同的意思。

我們舉個簡單的例子：

中文（分析語）：我昨天告訴他了。

英文（綜合語）：Itoldhimyesterday。

英文你首先可以看到told和him兩個變形。其中把tell變成told表示過去發生的動作，把he變成him表示客體。而中文用昨天來直接指明時間，如果不指明時間則需要用“已經”、“過”之類來表示過去，而並不改變詞的形態。中文還通過各自的位置來體現誰是主體誰是客體。

實際上，英語已經是綜合語中非常接近分析語的了。比方說英語的未來時態用的詞形和一般時態沒有區別。而很多其他語言中不同的時態都是用不同的詞形來表達的。再比方說英文對於各個詞的位置有明確的規定。而很多其他綜合語，諸如拉丁語中，詞的位置可以不固定。換句話說就是可以說出這樣的句子：HimyesterdaytoldI。然後通過詞形裏的主格詞形和賓格詞形來判斷究竟是誰告訴了誰。

這是非常糟糕的，因為在讀取的時候，總是有先後的差別。我們希望的讀取順序是：先讀取我們的大腦需要先處理的部分。分析語天然就有這種優勢。很多綜合語在逐步的發展中也確立了類似的規則，比如拉丁語的後裔之一——法語。

上古古漢語也曾是一種綜合語。但是由於漢字的限製，古漢語的詞形變化僅存在於口頭中。比方說文言文中的使動用法，如“文王以百裏之壤而臣諸侯”中的臣（使臣服），在上古時期，是需要在漢字發音前加“s-”音來標識的。這就是一個典型的綜合語的詞形變化。

有人認為現在的漢語仍然帶有一定的綜合語色彩，他們認為加入諸如“了”、“的”這種助詞實際上就是詞的變形。這種看法就隻能見仁見智了。

從整體發展趨勢來看，世界各地的口語都是從綜合語向分析語發展。雖然不能說分析語就一定優於綜合語。但是這個趨勢說明分析語的某種特性符合曆史的發展。這個優勢就是數據的壓縮。

三、數據壓縮：分析語的高超之處

當年計算機發展到了新的時代，人們開始研究如何在計算機上存儲視頻文件。一開始的方案極其簡單，就是把一幀一幀圖像全部都存儲下來。但是這無疑是低效的。因為這裏麵的冗餘信息太多。舉個簡單的例子。一個夜晚的場景，畫麵上很多地方都是黑的。何必把每一個點的色彩反複記錄呢？所以接下來的一個思路就是，不再存儲每一幀圖像的完整信息，而存儲下一幀圖像與上一幀圖像之間的差異之處。兩幅圖像中顏色一樣的部分全部跳過。

分析語恰恰就具有這樣的效果。舉個簡單的例子。一個人在用漢語談論昨天發生的事情時，隻需要一開始提及“下麵這些事情都發生在昨天”，後麵就再也不必提及時態了。而英文，則需要反複使用時態來表明這事情發生在過去。在交流時你需要時刻考慮時間、主格/賓格、數量、主動/被動。這對交流是有影響的。當然熟練使用這種語言之後會大大降低考慮這些的時間，但是即便熟練的綜合語使用者還是會在這方麵犯錯。在上下文的幫助下，這些變化都可以省掉。時間變形，可以依靠在第一句中加入時間狀語完成描述，其後描述相同時間段的句子就再也不用考慮描述時間了。這就是分析語的數據壓縮能力。

當然，這並不是說分析語就一定優於綜合語。在缺乏上下文的情況下，一句綜合語可以用比較簡單的形式傳遞比較多的信息。但是隨著人類社會交流量的上升，一次交流的上下文就變得豐富起來，很多在單詞、單句的條件下很有效率的信息交流方式，也就顯得越來越冗餘了。因此世界上的各個主要語言紛紛向分析語靠攏。

另外，有的人認為分析語劣於綜合語，他們是這樣說的“綜合語隻用幾個字母組成一個詞綴就能表示一個特定含義，而漢語做不到”。這就是沒有看到，在當今世界上的實際交流中，上下文總是很豐富。這種變形的方式在單句下很有價值，但在實際交流中就沒有什麼意義了。

關於各個語言的表意效率，也就是信息密度，2011年法國裏昂大學做了一個實驗。www。time。/time/health/article/0，8599，2091477，00。htmlohll。ish-lyon。cnrs。fr/ful.o_2011_Language。pdf

這個實驗裏，研究者找了59位不同語言使用者，其中包括英語、法語、德語、日語、漢語、意大利語和西班牙語。為他們提供了20段文字，這些文字都翻譯成各自的語言。然後請這些人分別用正常語速朗讀。研究者全程錄音。

然後研究者計算所有音節數量，計算朗讀中表現的義項（表意的基本單位）的數量，然後得出結論。當然，這個實驗並不能完全準確地表現各個語言的差異，但是還是可以用來定性的。

其中，漢語信息密度為0。94，位居第一。英語信息密度為0。91，位居第二。另外值得注意的是，距離分析語更遠的法語（0。74）、德語（0。79）、意大利語（0。72）、西班牙語（0。63）的信息密度，都比到英語低。而日語信息密度為0。49，有人認為這是因為日語的表意方式與其他語言不同。

此處信息密度是通過計算每個音節所包含的義項數量來獲得的。由於義項的數量是從原始文本——英文版裏統計的。而翻譯之後有可能會增加或減少義項。為了防止翻譯過程中的扭曲造成數據標準不統一。各個語言的文本都被單獨翻譯為越南語，然後與各自越南語文本中每個音節所包含的義項數量相除，最終得到比較公平的數據。

這讓我不由地想到，經過大規模注水的現代漢語信息密度還是這麼高，那麼文言文究竟已經高到了何種地步？很遺憾沒有這方麵的研究。不過，根據使用頻率進行加權平均，現代漢語平均每個詞中的字數差不多是1。5左右。在文言文中，其中很多都是用單音節詞表達的。折中一下，我猜想文言文的信息密度達到現代漢語的1。25倍應該是不成問題的。這在古代更是個恐怖的數字。因為拉丁語可不是比現代歐洲各主要語言簡單。受到古代文字記錄空間的限製，漢語的顯然在文字記錄方麵更加占優。這也許就是我國古代文字記錄非常豐富的原因所在。

有人質疑說，有時候一個很長的音節意思很簡單，而一個很短的單詞意思卻很複雜。這種情況當然是存在的。我需要說明的是，所有複雜事物的優劣都是一個統計概念，“高”並不是絕對在任何條件下都高，而是在大多數情況下高。如果一種語言平實交流平均下來就是比另一種語言多用一個音節，那麼很顯然其表意效率都是很低的。

還有人說，音節不能作為衡量信息密度的單位，因為不同的音節，發音長度很不一樣。這個問題提的非常好。事實上我下一節就要講到英語與漢語發音長度的問題。英語單音節平均發音長度比漢語長。因此在口語的信息密度方麵，漢語的優勢更大。

值得注意的是，可能由於漢字與讀音是分離的，理解和朗讀無法同步進行，所以用漢語朗讀，就會比較慢。裏昂大學的這個實驗中，漢語朗讀者每秒朗讀5。18個音節。大大慢於其他語言（英6。19，法7。18，德5。97，意6。99，日7。84，西7。82）。因此在朗讀中，漢語傳遞信息的效率比較低，換算出來的朗讀信息傳遞效率為英1。08、法0。99、德0。90、意0。98、日0。74、中0。94、西0。98。

當然，以上裏昂大學的研究也受到了一些批評。有人覺得做的太糙了，而且有些地方不能自圓其說。比如按文中數據明明日語表意效率明顯低，但作者又說其實一分鍾內各個語言表達的信息量是差不多的。

四、傳輸的優勢：聲調

口語信息的傳輸，是通過聲音完成的。聲音一般分為四個部分：音質、音高、音長、音強。對於語言的一個音節來說，音質指的是其中輔音與元音的組合。其他三個都很好理解。

一般現代語言不太規定音強，因為這實在無法在各個人之間得到統一，而且受到說話人的距離、情緒、身體狀態等影響。此處需注意，英語中的“重讀”，實際上是音高變化。

而剩餘的三個元素，則都在語言中得到了廣泛的運用。

我們拿漢語舉例，音質很容易理解，就是發音除去聲調。而聲調本身則分為音高和音長兩項。

漢語普通話的四聲，是四種不同音高變化模式。一聲是保持音高。二聲是音高由低到高變化。三聲是音高從高到低再到高。四聲是音高由高到低。雖然我們當年語文課裏說輕聲是沒有聲調，但實質上輕聲是縮短音長。輕聲一般是縮短音長的四聲或一聲（有時音高很低）。不過輕聲很短，比較難以聽清，所以普通話中僅作為特定用途使用（語氣助詞、複數標誌等）。

英語的重讀實際上是音高的差異。所以嚴格地說，英語是有聲調的。隻不過英語的音調隻有兩個：高和低。但是英語中音調僅用於部分音節。除了表示疑問、強調等情況，通常英語單詞不變調。除少量英語單詞（如Record）外，英語單詞不借助音調來區分不同的詞義。英語的確使用音長要素（如Sheep和Ship）。由於英語一般隻用音質和音長來區分詞義，所以一般也認為是一種沒有聲調的語言。

首先從編碼效率上，我們可以說漢語就是世界上編碼效率最高的語言之一。漢語是世界上為數不多的使用音高來區分不同單詞的語言。因此從編碼上說，漢語發音的表意能力就比一般語言高出一個維度。也就是說，使用單個音節，漢語能夠表達的不同信息的種類，理論上最高可以達到一般外語的4倍。

為什麼外國人學漢語學得這麼辛苦，而中國人學英語則沒有那麼辛苦？就是中國人是已經掌握了在發音是音高變化，現在再去學低級的兩個固定音高。而在學習漢語中，很多外國人最吃力的問題之一就是聲調，因為隻習慣於兩個固定的音高，而沒有聽到過、練習過在發音時連續變化音高。

有人提出，聲調本身會影響發音速度。這當然是存在的。比方說二聲，要求發音時音調逐漸上升，要表現出這個，發音時要表現出兩個音調，自然是要比單一音調要費事。但是聲調的好處在於，能夠在同一組輔音和元音組合的基礎上產生出多種不同的發音，所以就不必借助更多的輔音來區別兩個具有類似發音的詞（比如英文life和light）。英文音節中，輔音-元音組模式的音節，發音確實比漢語略快。但是其他模式，諸如輔音-輔音-元音組-輔音（Blight），或輔音-元音組-輔音，往往就比漢語發音慢了。而輔音-元音組模式的音節，由於英語缺乏音調，所以數量遠小於漢語。整體平均下來，英語單個音節的發音應慢於漢語。

對於“英語單個音節的發音應慢於漢語”這個結論，可能有的人覺得不是很信服。我們來舉一個非常簡單的例子。普通中國人的初等數學能力往往超過歐美。這並不簡簡單單是教育的問題。更關鍵地，這是中文對數字命名結果。

漢語所有數字均為單音節，其中6和9有兩個元音（或按照國際學術便準，三個元音），發音稍慢；0有後鼻音，發音可能稍慢。還有幾個帶卷舌音，可能會稍慢。

英語所有數字，除7以外，全部都是單音節。其中覆蓋了“輔音-元音”結構（如4）、“輔音-輔音-元音”結構（如3），“輔音-元音-輔音”結構（如5），“輔音-元音-輔音-輔音”結構（如6），元音-輔音結構（如8）、雙元音結構（如0，注意一般數字裏0讀“ou”，不讀zero，後者實在太費勁了），等等。可以說英語的這些數字大致包含了英語的各種單音節詞的音節結構。當然這裏還沒有最神奇的輔-輔-元-輔-輔結構，但是那個和單元音結構一樣比較少見。

那麼平均下來英語的數字比漢語慢多少呢？

首先我們需要知道，人對數字的短期記憶，實際上是對數字發音的記憶。換句話說，你能記住的數字位數，是由數字發音的總長度決定的。研究表明（見deepblue。lib。umich。edu/bitstream/handle/2027。42/26140/0000216。pdf?sequence=1），中國人從小開始短期數字記憶能力就高過美國人。該文獻說明美國大學生的數字記憶長度平均為7。2位，中國大學生為9。2位。美國大學生的短期數字記憶位數，是中國學生的78。26%。換句話說就是，英語數字的平均發音長度比漢語數字高27。78%。去掉英文數字7（雙音節）對平均音長的影響（10%），那麼平均下來，單音節英語發音長度大概比漢語高17。78%左右。

更進一步，中國的數字都是徹徹底底的單音節，因此可以采用絕對邏輯的方式構建整個數字表。九十六，就是九個十加一個六。英語是“九十”（與九和十都不同的特殊詞）加一個六。法語是四個二十加十六。漢語種最簡潔而最富邏輯的結構，在世界上是極為罕見的。九九乘法口訣表，就是構建在這個基礎上的。其他國家的兒童如果想背下來這張表，可以說比中國兒童難了幾倍。這種語言上的優勢就提高了中國人的初等數學能力。

順便，還有人說，古漢語聲調更多啊，難道漢語越發展越回去了麼？這當然是錯誤的。有些音調受說話者情緒等條件的影響，在辨識的時候不確定性因素比較多。這個問題我們將在抗噪能力一節中詳細講解。

五、信息論上的優勢

從信息論角度來考慮，編碼是很有學問的。舉個例子。我們知道計算機傳輸信息，實際上傳輸的都是0和1。那麼，如果我們傳輸的各種信息出現的頻率不一樣高怎麼辦？答案是，出現越頻繁的，編碼越短。這樣就能提高總體效率。

比方說，我們隻有四種信息要傳遞。按一般的想法，自然是把這四種信息分別用00、01、10、11來表示。每個信息都需要用兩位二進製數來表示，也就是說傳播100條信息需要發送200個二進製數。但是如果其中有一種信息出現的概率是91%，而另外三種分別是3%。那麼就可以使用另一種編碼方式：1，01，001，000。平均下來這種傳播方式傳播100條信息需要發送91+2*3+3*3+3*3=115個二進製數。顯然比前麵那種效率要高。