第 9 章 構建穀歌圖書搜索體係
Google 圖書(Google Books)是一個由 Google 研發的搜
索工具,它可以自 Google 所掃描、經由光學字符識別、儲
存的數位化數據庫中搜索資料。此服務於 2004 年 10 月在
法蘭克福書展發布,命名為 Google Print。當用戶使用關鍵
字搜索,Google 圖書搜索的結果索引會顯示在 Google 網絡
搜索服務的上方,極大地方便了用戶搜索書籍。
穀歌的管理哲學
將圖書變成數字格式
沒有幾分無情,你就無法創建這個世界上最大的圖書館。為了在
亞曆山大建立圖書館,托勒密王朝會沒收在亞曆山大進港船隻上發現
的所有書卷,隻把摹本還給書的主人。他們派使者到地中海沿岸、中
東和印度搜集文獻,或買或盜。據傳說,托勒密二世從以色列的所有
12 個部落裏引進了猶太學者,將《摩西五經》譯成本地的首選語言——
希臘語。
學者們還認為,由此形成的《七十士譯本》成了早期基督教徒解
讀《聖經舊約》的基礎。圖書館甚至還收藏了烹飪類書籍。托勒密王
朝還試圖收集所能找到的各種圖書的最老版本,從理論上說,這些版
本會較少因為抄寫錯誤和後世校訂而出錯。
當時,希臘人也堅持保存最老版本。公元前 330 年左右,雅典官
員不安地發現,演員們正在篡改埃斯庫羅斯、索福克勒斯和歐裏庇德
斯的作品,這三位都已去世了至少半個世紀,他們被雅典人認為是有
史以來最偉大的作家。所以這些作品的官方版本——盡可能接近可以
判定出來的原著——被政府檔案局保管,並作出了法律規定,要求演
員忠實於正確的版本。
大約 100 年後,托勒密三世決定讓亞曆山大圖書館收藏希臘劇作的
官方版本,所以他請求借閱以便抄寫。為了確保歸還,希臘人讓他支付
了巨額押金,相當於今天的數百萬美元。但是托勒密對收藏巨著的貪婪
超過了金錢。他送回了複製版本,為圖書館留下了原版並放棄了押金。
這在 2008 年 10 月之前是有史以來最大的一筆圖書館罰金,當時
穀歌與圖書出版商們達成了一個協議。自從在斯坦福大學獲得數字圖
書館倡議的資助以來,拉裏和謝爾蓋一直想建立一個電子圖書館。這
個理念在他們創立穀歌和致力於網絡搜索時暫時被擱置了,但從未被
放棄。互聯網並未擁有世界上所有的信息,1995 年之前幾乎沒有創建
的任何文本。但圖書館實體卻收藏了千百年來所產生的豐富信息。圖
書館顯然是搜尋圖書的源頭所在,因為 95% 的刊印圖書現在都已絕版。
那些最大的圖書館花費數十年甚至數百年經營其圖書收藏,在它們的
藏書中,大約有 75% 的圖書不再刊印,其中一些非常古老。謝爾蓋和
拉裏希望能像托勒密家族那樣接近這一寶藏。2002 年,實現這個夢想
的計劃開始成形。
他們必須麵對的第一個問題是如何將圖書變成數字格式。他們不
知道要用多長時間才能把世界上所有的圖書掃描並且數字化。所以拉
裏決定先掃描一本書來搞清楚。他和時任產品經理的瑪麗莎·梅耶把
一架照相機、一本 300 頁的書和一個節拍器帶到了他的辦公室。瑪麗
莎翻書頁,同時拉裏為每一頁拍照,利用節拍器來掌握時間。他們花
了 40 分鍾,掃描了所有 300 頁內容。
拉裏和一個小團隊開始走訪其他圖書數字化項目,包括他讀本科
的母校密歇根大學的一個項目。他在那裏了解到,該校估計將其全部
700 萬冊藏書數字化所需的時間是 1000 年。他告訴密歇根大學校長瑪
麗·蘇·科爾曼,穀歌可以在 6 年內完成。
他還做了一個對於當時的軟件公司來說是不尋常的舉動,雇用機
器人工程師研製出可以替代瑪麗莎、拉裏和節拍器的機器人翻頁機和
穀歌的管理哲學
掃描儀。其他公司研製的此類裝置在市場上已經存在,但拉裏認為穀
歌的優秀團隊可以做得更好,他們設計了一個動作非常輕柔的裝置,
可以處理較老圖書的脆弱頁麵。穀歌的軟件編程人員創建了一個頁麵
識別軟件程序,可以識別超長類型尺寸的圖書和 430 種不同語言的罕
見字體。
然後,該團隊開始訪問大型圖書館,討論他們的計劃。在牛津大
學圖書館,他們檢查了那些有數百年曆史的圖書,這些書被精心保存,
很少拿出來,當時僅對有資格的學者出借。穀歌團隊熱情洋溢地談到,
可以將這些書數字化,使所有人都可以利用。經過一年多的討論,牛
津最終成為“穀歌印刷品”(後來重新命名為“穀歌圖書搜索”)倡
議的首位合作夥伴,並與穀歌達成了一個協議,在三年內將其 100 餘
萬冊 19 世紀的藏書數字化。
有瀏覽才有購買衝動
擁有 200 年以上曆史的圖書已不受版權保護。但拉裏還需要較為
近代的圖書,一些是印刷品,一些不是。為此,他需要了解出版業務
的人提供幫助。他找來了一位在蘭登書屋工作的年輕人,名叫亞當·史
密斯(Adam Smith)。
史密斯並非你常見的那種穀歌怪才。他高高的個子,30 歲光景,
體格健壯、身材修長,頭發修剪得一絲不亂,非常健談,流露出成功
人士的自信微笑,儼然一副他曾經擔任的出版業年輕高管的春風得意
的樣子。2003 年,史密斯在《紐約時報》上寫了一篇關於蘭登書屋對
走向數字化頗感興趣的文章。這篇文章引起了穀歌小夥子們的注意。
當年 8 月,他同意和拉裏、公司顧問戴維·德拉蒙德和廣告主管蘇珊·沃
西基見麵,他們準備在幾天後趕到紐約。這並非一次求職麵試,但是
加州人史密斯希望如此。“我在想,這是我回到加州的機票。”他說。
這次見麵未能如約進行。這幾位穀歌人在紐約的露麵,簡直令曼
哈頓停擺。穀歌在 2003 年 11 月召見史密斯進行了正式麵試。那時他
終於見到了拉裏。
像往常一樣,這次會見更像是一次信息傾瀉,而不是一次麵試。“拉
裏對出版業、它的運作和他們的動力感到好奇。他想知道他們的推動
力和他們的興趣點。他很想以一種我所謂的‘解決問題’的方法來洞
察這一行業。他說:‘出版商一定有難題,那麼我們能為他們做些什麼?
這是一個龐大的產業,而互聯網準備在其中發揮某種作用。所以從產
品的角度,穀歌應該如何看待這一點?’”
史密斯的回答給拉裏留下了深刻的印象,以至於將其雇用。2003
年 12 月,史密斯正式加入穀歌。
一年後,穀歌宣布了它所結成的夥伴關係,它將把 5 座圖書館——
哈佛大學、密歇根大學、牛津大學、斯坦福大學和紐約公共圖書館——
的圖書數字化。在每種夥伴關係下,穀歌都將支付所有費用。實現他