香農在其通信理論中,描述了通過移除冗餘來壓縮信息的方法。“Cn u rd ths sntnce?”比單詞完整的句子“Can you read this sentence?”更具傳輸效率。Google發展了香農的思想。“Google,”佩奇寫道,“以壓縮格式貯藏其在網上抓取的所有煩瑣的實際文檔。我們設計Google的主要目的之一,就是要建立一個其他探索者能迅速進入的環境,處理龐大的網絡,產生有趣的結果,而如果用別的方式來處理將會非常困難。”
香農用來描述比特信息傳輸的主要數學工具,是在上一個世紀之交由聖彼得堡的安德烈·馬爾科夫(Andrei Markov,1856~1922)發明的。因他而得名的馬爾科夫鏈是環環相扣的隨機變量係列,下一個變量的概率域值完全由它當前的一個變量來決定,而與它更前麵的那些變量無關。
馬爾科夫激發了佩奇的靈感。1995年,憑借純粹的學術興趣,佩奇著手繪製網站和鏈接的擴展形態圖。它們是如何鏈接到一起的呢?當然,即便那時的網站已經從1994年的數百個網頁發展到幾年後的數千萬個網頁,但要畫下它們之間的鏈接談何容易(這本書的卷首插圖描摹了這張圖,其藝術性比科學性多一些)。“有太多的網頁、太多的模塊、太多的箭頭。”克雷格·西爾弗斯坦(Craig Silverstein)說克雷格是另一個斯坦福的輟學學生,他是Google的元老,2004年時任技術主管。“所以拉裏試圖用數學方法簡化那些網絡,提出用馬爾科夫鏈分析這些鏈接的想法,其數學結構允許有大量等式和變量。馬爾科夫的成果已經在各種數學模型中運用。拉裏把它應用到了網絡,這是新東西,以前沒有人想過。此前人們用各種方法分析網絡鏈接,最明顯的是統計網頁上的字數,這種非常容易操作的技術應用起來不是很成功。”
當佩奇和布林意識到這個繪圖聯係產生了一個網頁連接的數學排序——能看做是搜索網絡用的一種高精確度工具——一切豁然開朗。“直觀上看,”拉裏說,“如果網上許多地方都在引用同一網頁,則說明這個網頁值得一看。當然,隻從雅虎主頁這樣的地方引用而來的網頁也值得一看。如果一個網頁質量不高,雅虎的主頁就很可能不去鏈接它。”
他們稱這個係統為PageRanking(字麵上容易理解為網頁序列等級)——但這裏的Page是指拉裏的姓氏,不是網頁,不僅僅是數一數任何網站上鏈接的數目。如果其他排名靠前的文檔與之鏈接,則說明這個鏈接比另一個鏈接重要得多。而那些文檔,依此類推,也會受與之鏈接的其他文檔PageRanking的影響。因此,文件的PageRank由其他文件的PageRank總遞歸之和確定。這是一個動態係統,因為即使是處在邊緣的少量鏈接,任何一個文件的等級都會影響其他文件的等級,簡言之,PageRank的等級是由整個網絡的連接結構決定的。在他們的解釋性論文中,佩奇和布林寫道:“我們已經創建的圖,容納了相當於5.18億個超鏈接,是全局重要的樣板。這些圖允許快速計算網頁的PageRank,是對網頁引用重要性的一種客觀度量,網頁引用的重要性與人們主觀認識上的重要性非常一致。”
1995年和1996年,他們對市麵上的係統進行了評價。布林和佩奇承認,像雅虎這樣靠手工維護清單的做法對於大眾話題非常有效——“但那是主觀行為,並且建立和維護的成本相當高,改進起來慢,無法覆蓋小圈子的話題。”他們更注重甄別自動分類的搜索引擎,如AltaVista、Lycos、HotBot、Infoseek和Ask Jeeves,它們都采用相同的技術查找信息,在接受搜索請求時用關鍵字反複搜索。這就導致了人為操縱的作弊行為:為使網頁排名提升,建立網站的人隻需簡單大量重複要搜索的關鍵字即可。有一款主要的搜索引擎,它隻取回與搜索請求最為近似的那個文檔(類似一個標準的信息檢索係統),“網絡上有一些爭論,說用戶應該把想找的東西描述得更加具體和準確,並用更多的文字來提出搜索請求,”佩奇和布林寫道,“我們強烈反對這種觀點。如果一個用戶要查找“比爾·克林頓”,他們應該得到合理的結果,因為關於這個人的高質量網頁實在太多了。”布林和佩奇認為,一個可信賴的搜索引擎首先應該把用戶帶到白宮。他們也會確信該引擎有能力反饋更多的搜索結果,如果沒有辦法為海量網頁排序,也就不能中肯地幫助要找東西的人反饋適當的結果。“索引裏的文件數量正以多個數量級激增,但是人們看文件的能力並不隨之增長。人們隻願意看排在前麵的頭十項結果。網絡越龐大,人們能關注的就越少,能回應的就更少——垃圾信息越多,人們離可取的信息就越遠。”