第二章

二、攻克難關

●陳堃銶已被學校指派參加調研,恢複了正常工作,她便自告奮勇,向數學係作了彙報,沒想到引起很大反響,係領導決定盡快將報告呈送北大領導。

●王選毅然決定跳過第二代、第三代排版係統,直接跨入國外還沒有商品化的第四代係統,用激光掃描的方法來還原輸出。

●全國各地的多家單位帶著自己的研究方案和成果相聚北京,躍躍欲試,都想從中脫穎而出。

● 攻克難關

攻克最大技術難關

激光照排係統中的漢字信息處理有兩個重大的根本性難題,一是漢字的儲存,一是漢字字形信息的還原輸出。而第一個難題顯得尤為突出。

漢字的基本筆畫不如字母文字多,“點、橫、撇、捺、豎、彎、鉤、折、提”而已,但漢字的構成卻比字母文字複雜得多。字母文字的單詞由字母簡單排列而成,而每一個單個漢字的構成,都是筆畫之間互相交錯重疊,你中有我,我中有你,不可拆分。因此,漢字的一個單字實際上相當於字母文字的一個字母了。

西文隻有26個字母,所以存貯量問題並不尖銳,而漢字字數繁多,《康熙字典》收入的漢字多達47000多個,常用字就有五六千個,印刷用的漢字更存在多種字體,有宋體、黑體、仿宋、楷體等10餘種,而且還有10多種大小不同的字號。

漢字字形信息量太大,是中文信息處理係統最大的難題。要把漢字信息存儲進計算機,就要把漢字變成點陣來表示。

一個5號字的正文字,至少需要100×100點陣,大號字體甚至需要1000×1000以上點陣。

漢字的常用字在3000字以上,印刷用的漢字多達2萬多,加上每個字都有50多種不同風格的字體和50多種大小不一的字號,如果都用點陣來表示,信息量高達上千億字節。

Digiset采用的是黑白段的描述方案,壓縮率很低,對付26個英文字母還可以,對付海量的漢字點陣信息就行不通了。

漢字字形信息量大的問題,一下子成為擺在王選麵前的主要難關。

日本京都大學倒是發明了一種字根組合方案,壓縮率高,但質量不好。

從1946年西方發明第一代照排機開始,到1975年已經過去了30年,美國報界在1970年前後已全部采用電子排版,但中國仍然在揀鉛字。

鉛字印刷的痛苦深深地印在每個排版工人的心中!他們迫切地希望,有一種比較先進的技術能替代這種原始的勞作。

但是,漢字照排係統的問題卻一直沒有得到圓滿解決。

20世紀70年代,王選有條件使用的國產計算機的磁心存貯器,最大容量隻有64KB;沒有磁盤,隻有一個512KB的磁鼓和一條磁帶,相當於美國20世紀50年代末的水平。

在這樣簡陋的條件下,王選不得不另辟蹊徑,開始設法壓縮漢字信息。

在接下來的日子,王選滿腦子的漢字橫豎彎勾,連做夢也盡是筆畫。他的數學背景顯示出意想不到的功效,王選很快想到了用輪廓加參數的數學方法描述漢字字形,這樣做可以大大地壓縮漢字信息。

這時,他發現,漢字雖然繁多,但是有規律可循,每個漢字都可以細分成橫、豎、折等規則筆畫,和撇、捺、點等不規則筆畫。

對於規則筆畫,可以用一係列參數精確表示;對於不規則筆劃,可以用輪廓表示。他統計了一下,漢字中規則筆畫的比例占了近一半,所以壓縮的空間很大。

王選不停地統計和計算著,遇到問題就與陳堃銶討論,兩個人完全沉浸在漢字的一筆一畫裏。

1975年5月,“全電子照排係統”的初步設計方案終於完成。王選決定盡快向係裏介紹這份方案,爭取學校的支持。

但連續數月的勞累,使他虛弱得作不了報告。另外,他也有一點擔心,擔心自己“人微言輕”。

此時,陳堃銶已被學校指派參加調研,恢複了正常工作,她便自告奮勇,向數學係作了彙報,沒想到引起很大反響。係領導決定盡快將報告呈送北大領導。

王選的手稿被拿到北大印刷廠打印。一些印刷工人得知他們正在研究用“電腦代替鉛字”,非常興奮,有的說:“這事真要成了,咱就不用天天跟黑乎乎的鉛字打交道了。”

有的說:“每天手托著沉甸甸的鉛字盤,來回揀字排版,相當於走幾十裏路,排好了再印刷,又髒又累,有了電腦,輕輕鬆鬆坐在那裏一敲鍵盤就齊了。”

大家的話,給了王選很大的鼓舞,他沒想到自己一個微不足道的病號隻是提出了一個初步方案,就得到了工人們如此強烈的反應,說明他的研究與印刷工人們是休戚相關的,這更堅定了王選的信心。

很快,北大有關部門拿到了打印好的報告。他感到事情重大,決定立即召集有關單位開會研究。

1975年5月的一個晚上,北大數學係、無線電係、圖書館和印刷廠的聯合會議在魏銀秋主持下舉行。陳堃銶參加了會議。

會上作出了兩項重要決定:一是把漢字精密照排係統列為北大自選項目,確定了“數字存貯、信息壓縮和小鍵盤輸入”的總體方案,爭取列入國家“748”工程的計劃;二是從各單位抽調人員成立會戰組,協作攻關。

開完會,夜已深了,陳堃銶一回到家裏,就立即向王選細述了會議的情況,兩人心中的感受難以言表。從1966年開始,近10年來,王選一直是個邊緣人物,很多時候都有一種永世不得翻身的絕望。

直到此時,他才重新感覺到了學校、科研對他的需要,甚至感到了祖國和人民的重托。

5月的北大正是槐花盛開的季節,空氣中暗香浮動,王選有些熱血澎湃,他興奮地對妻子說:“咱們又要大幹一場了!”生活對於這對患難中走過來的夫妻,又掀開了嶄新的一頁。

萬事開頭難,會戰組的組建是很不順利的。數學係比較積極,派了陳堃銶、丁靄麗參加軟件研製;中文係派出李一華、陳竹梅、石新春參加字模和輸入方案的工作。其他係卻不積極。

會戰組從1975年5月籌建,直到1977年4月,始終缺乏計算機方麵的教師。

王選的編製在無線電係,但他是“吃勞保”的病號,沒人約束他,這也恰恰給了他進行獨立思考的自由空間,可以集中全部精力來完善總體方案。

實際上,在這些人中,真正懂硬件又懂軟件的隻有王選,懂軟件的也隻有陳堃銶。在接下來的幾個月裏,王選一心一意地投入了工作中。

7月流火,屋裏悶熱難耐,王選就搬一張破舊的木椅坐在柿子樹的蔭涼下寫寫畫畫,進一步實現和完善總體方案。陳堃銶則把壓縮信息拿到計算機上進行各種模擬實驗。

數學和漢字,這兩種代表不同意義的學科和符號,被王選和諧、緊密地結合起來,一係列世界首創的神奇發明誕生了:用輪廓加參數的描述方法,使漢字字形信息以1比500的比率高倍壓縮;設計出一套遞推算法,使被壓縮的漢字信息高速複原成字形,而且適合通過硬件實現,為進一步設計關鍵的激光照排控製器鋪平了道路。

更獨特的是,王選想出用參數信息控製字形變大或者變小時敏感部分的質量的高招,從而實現了字形變倍和變形時的高度保真。

印刷用的漢字根據需要有大小不同的字號,1975年,中國報紙的正文字是五號,書刊的正文字一般也是五號。因此王選把五號字看作主體字號,使其字心正好是96×96個點,成為常規計算機字長的整倍數。所以,當他把係統的輸出分辨率定為742線/英寸(DPI),剛好滿足書報對文字分辨率的要求。

王選後來說:

這個分辨率一確定,就出現了一個問題:漢字筆畫多,尤其是橫道很多,在字形變倍特別是變小時,筆畫會出現粗細不勻。比如“量”字中有九道橫,同樣寬度的兩道橫當字形變小後會變得寬度不一樣。在1500DPI的高分辨率照排機上,這一細小差別對文字質量影響不大,而在我們選擇的742DPI時,應該一樣粗的橫道變倍後卻粗細不一,明顯影響了文字質量。豎也有類似問題,但豎一般比橫粗,數量相對少一點。怎麼才能保證一個字在變大尤其是變小時的質量呢?我想出用參數這一附加信息來描述橫寬、豎寬,並保證本來一樣寬的橫或豎變倍後仍維持相同的寬度,使742DPI下的小字仍舊美觀勻稱。

王選的這一發明在1975年是世界首創。

與漢字相比,西文字母筆畫少,結構簡單,而且西方工業技術先進,選擇的都是1000DPI以上的高分辨率輸出,文字變倍後基本不存在質量變化,所以也就不必用附加信息控製敏感部分變倍後的質量。

直到1985年,300DPI的激光打印機開始大量流行,在300DPI分辨率下,西文也出現了變倍後的文字保真問題,才有人想到用“提示信息”描述字形的寬度、間距以及需要保證對稱的敏感部分,輪廓加參數的描述方法才在西方大大流行起來。

1975年9月,王選的高倍率字形信息壓縮技術、字形的高速還原技術進一步成熟,並通過軟件在計算機中模擬出“人”字的第一撇。

這是漢字信息處理技術的重大突破,38歲的王選有過人的膽識和信心,他用數學和智慧輕輕一叩,漢字進入計算機的大門被轟然打開了。

然而,此時許多人認為,這隻不過是個名不見經傳的小助教,拖著長期病弱的身體憑空想像出來的數學遊戲。

積極爭取領導的支持

在攻克技術上的最大關之後,王選又麵臨著另一個難關。11月初的北緯旅館論證會,給了王選第一個沉重打擊。

自從著手精密照排係統的研究以來,王選越來越清楚地感到,要想使自己的研究成果投入生產和實際使用,僅靠北大單打獨鬥是很難實現的,必須取得國家有關部委以及協作單位的支持,最好加入到“748”工程中來,把其中“漢字精密照排係統”這個子項目爭取過來。這也是北大成立會戰組時定下的目標。

1975年,漢字精密照排係統子項目以及100多萬元經費已經下達給了北京市出版辦公室,並指定北京新華印刷廠為第一用戶。

為了論證我國精密照排的技術方案,北京市出版辦公室在宣武區的北緯旅館召開了方案介紹和論證會。全國各地的多家單位帶著自己的研究方案和成果相聚北京,躍躍欲試,都想從中脫穎而出。其中研製二代機的幾家更是信心十足,誌在必奪。

對於北大和王選,這是一次極好的展示機會,王選、陳堃銶征得學校同意,參加了會議。

公共汽車上,陳堃銶小心翼翼地護著包,裏麵是夫婦倆辛苦多日的成果:一個用字形信息壓縮方案、通過軟件還原、寬行打印機打印的“義”字,是3張打印紙拚接起來的,展開大約有五六十厘米見方。之所以選“義”字,是因為這個字的壓縮信息簡單,並且包括了撇、捺、點3個不同筆畫。

王選雖然參加會議,但身體太虛,說話無力,仍讓陳堃銶代作報告。雖然講過幾次,但這次不同,關係到能否爭取到國家項目和經費,因此陳堃銶感到壓力很大。

新華社的錢喬其在會上介紹了雲南大學的字模管三代機和小鍵盤編碼輸入方案,科學院自動化所的毛緒瑾介紹了他們正在研製的飛點掃描西文三代機方案,新華印刷廠的貝貴琴介紹了與清華大學合作研製的字模平板移動、靜止曝光的二代機,樊景泉則介紹了上海有關單位的研製情況。