正文 第9章 《證詩經押韻》一文數理統計方法(1 / 2)

南京大學圖書館聶娜

《證》文中根據自己預設的定義統計,“得到1003個字段,6155個字,其中不同的字有1858個,總共相逢18518次”。可見,在此討論的樣本總量為6155個字。

我們用一個簡單的例子來模擬這個看似複雜的問題。

相當於一個袋子裏裝有6155個小球(等同於《證》文中的6155個字),小球共有1858種顏色(等同於《證》文中的1858個不同的字),其中,兩兩之間在袋內同一區域出現(等同於在同一字段出現),則認為是相逢,一共有18518次。

按《證》文的思考邏輯,若小球之間的相遇是任意的,那麼1858種顏色的小球之間理論上相逢關係種數共有多少呢?《證》文認為“對1858個不同的字來說,共有1858×1857/2+1857=1727011種相逢關係”,“每種相逢關係出現的概率是ρi=11727011”。按此思路和計算公式,可見此處討論的樣本已經發生了變化,脫離了原6155個字的樣本,雖然此處樣本未知,但明顯與原6155個字的樣本不符。樣本的變化使數學建模的基礎建立在一個混雜的標準上,失去了應有的數學意義,我們將在後文中詳細說到。

同樣,把較抽象的音韻問題轉化成比較直觀的小球問題,相當於“袋子裏的1858種顏色的小球(共有6155個),任意兩兩相遇的顏色搭配共有多少種?每種的概率是多少?”如果題目到此結束,是無法算出唯一正確答案的,在數學上,這樣的命題無唯一解。若想知道搭配種數和概率是多少,則應提供每種顏色小球具體數量的相關信息。

這裏有兩個問題,首先是搭配種數問題,也即《證》文中的相逢種數問題。

對於任意一種顏色的小球,當它和包括自身顏色在內的任意顏色小球配對,必須有足夠的數量。比如白色小球,可以和藍色、紅色、綠色、黃色小球配對,也可以和自身顏色白色配對,此時需要的白色小球至少有2個,一個白色小球分別與藍色、紅色、綠色、黃色小球以及另一個白色小球配對,此時,白色小球能夠搭配的顏色種數是5種。但如果白色小球隻有1個,那它無法與自身顏色小球相配,最多顏色配對種數隻有4種,無法達到完全配對種數。對於1858種顏色的小球,如果要滿足完全配對,我們最少需要多少個小球呢?很顯然,每種顏色小球至少需要2個,才能滿足條件。做一個極端假設:假設這1858種顏色的小球中,1857種隻有1個該顏色小球,最後一種比較多,有6155-1857=4298個。在這種情況下,小球之間的顏色搭配有多少種呢?很顯然,隻有1858×1857/2+1=1725154種,而非《證》文中的方法所算得的1727011種。

由上例不難看出,對於《詩經》中字與字的相逢種數,也是同樣道理。假設1858個字中,有1個字共出現了4298次,而其他1857個字都隻出現了1次。此時兩字相逢種數的最大可能隻有1725154種。可見,相逢種數並非固定是1727011種。理論上來說,這個數字可能是1725154到1727011之間的任意一個,隻能根據具體每個字出現的次數準確算出。

另一個問題更重要,就是概率的問題。

從概率的定義可知,在同一個事件整體中,如果認定每種關係出現的概率一樣,則必定承認,其前提是默認每個事件出現的次數相同。此例中,每種相逢關係對應的整體是一致的,若認定每種相逢關係出現的概率是ρi=11727011,根據概率相關性質,則參與種種相逢關係的每個字出現次數也應該是相等的。比如“言”與“長”之間是一種相逢關係,“長”與“詳”之間也是一種相逢關係,如果在《詩經》的“句末字”中,“言”出現了100次,“長”也必然出現了100次,“詳”也必然出現了100次,任何一個句末字在《詩經》中出現的次數都是相同的,才能滿足每種相逢關係的概率是相等的。《詩經》中的每個不同句末字出現的次數是不是完全相同的呢?顯然不是。因此,根據矛盾推翻原設,即每種相逢關係出現的概率不是ρi=11727011。