最後,被數據分析結果誤導的龐涓果真中計,在大樹下被亂箭射殺。不知道他死的時候有沒有明白到底是哪一步搞錯了。
龐涓的失敗在於數據量太小和分析方法太過粗略。僅分析一個樣本太小的數據,得來的結果很可能是有問題的;而分析方法不夠好,好的數據也得不出好的結果。如果龐涓不僅知道齊軍的灶數,還有能力得到齊軍每天糧食消耗量、營帳多少、傷亡數目、士氣狀況等,灶數帶來的誤導就顯得沒那麼重要,或者龐涓就能根據其他數據識破孫臏的計謀,而曆史可能就完全改寫了。
大瘟疫的統計
搖一搖玫瑰花苞,
這塞滿小花的荷包。
阿嚏!
阿嚏!
我們就被放倒。
這是一首曾經在英國廣為傳唱的曲調歡快的兒歌,描寫的卻不是快樂的事情,而是一個人感染了可怕的瘟疫後的情景?這是比前麵所說的霍亂更早的一次瘟疫。從1485 年到1665 年,英國灰色的天空下瘟疫不斷,死亡成了揮不去的記憶,在這樣的歌謠中流傳?
歌謠裏提到的“玫瑰花苞”指的是染上瘟疫的人身上冒出來的斑點狀的東西。這種疾病會使人的呼吸係統出現強烈反應,導致噴嚏之聲不斷。很多人認為香草的氣味能夠淨化瘟疫的惡濁空氣,可是,那些被疾病放倒了的人再也沒能站起身來。當黑死病風卷殘雲般從歐洲退去之後,英國平靜了一個多世紀。然而在1485年到1665年這段倫敦大瘟疫猖獗的日子裏,英國一直生活在瘟疫的夢魘裏。從這首兒歌裏,我們還能夠依稀感覺到當年殘存的噩夢的記憶。在將近200 年的時間裏,可怕的瘟疫籠罩在英國的上空,主宰著英國人的生活,久久不散。
一說到英國作家笛福,大家肯定都知道他的著名作品《魯濱孫漂流記》,其實笛福還創作了很多其他作品,隻是沒有《魯濱孫漂流記》有名罷了。笛福有一本紀實小說叫作《A Journal of the Plague Year》,這本書裏用大量的筆墨描寫了1665年倫敦發生的可怕的鼠疫場景。
曆史畫家麗塔·格裏爾的作品《倫敦大瘟疫》便描繪了大瘟疫時期倫敦街頭的慘狀。在死亡的籠罩下,人們或被強製隔離,或恐慌瘋狂,或麻木等死。這是英國本土最後一次大型的鼠疫傳播,此前在1636年及1625年發生過的兩次則分別奪去了1萬和3.5萬人的生命。當時英國的鼠疫被認為是由荷蘭帶入的,因為荷蘭從1599年起就多次出現鼠疫疫情,最初進入英國的病源很可能便是那些從阿姆斯特丹開出的運送棉花的商船,而阿姆斯特丹本身在1663年至1664年亦同樣受鼠疫蹂躪,死亡民眾不少於5萬人。
作家托馬斯·維森特在《城市中上帝的可怕之聲》中也曾作了這樣的描述:“秋天到來時,人們就像那落葉一樣,被可怕的風所搖撼著,隨風倒下去,如落葉一樣越積越厚。商店的門關了,路上的行人消失了……幾乎每一處都是沉寂……沒有馬的嘶鳴,沒有車輛的行蹤,沒有物品的供應,也沒有顧客的喊叫聲……從來沒有如此之多的丈夫和妻子共赴黃泉,從來沒有這麼多的父母攜帶著孩子一起踏上死亡之路。”
在這個人人恐慌,連醫生都大量逃出倫敦以躲避瘟疫的年代,有一個名不見經傳的倫敦市民約翰·格蘭特做了一件事情。這件事情在當時看來也許沒有太多意義,但現在,倫敦大學學院兒童健康研究所的菲利浦·比爾斯教授對此非常讚賞,他將格蘭特稱為“300年前居住在倫敦的非凡人物”。那時的格蘭特非常想搞清楚這場直到今天也沒搞清楚起因的可怕瘟疫到底是怎麼回事,而他采取的方法和其他人完全不同。一開始,格蘭特開始在教區的死亡記錄中搜尋線索,也就是死亡統計表。
格蘭特在《可怕的天譴》一書中對1665 年這一年中每周的死亡人數作了詳細統計。這本書裏共有55 張統計表,其中記錄了各種死亡原因、男女比例、各個堂區的具體死亡人數、死於疫病的人數,等等。從1665年10月14到21日,一個周內發生疫情的社區有99個,各類死亡人數共1359人。其中,死於鼠疫的有1050人,約占這周死亡總人數的77.3%。從15l9 年開始,倫敦屬下的堂區開始統計死亡人數。從1538 年開始,堂區又有了出生、結婚、死亡的堂區登記表。將兩者進行對比,我們便可以得出鼠疫死亡人數的較為準確的情況。據此,現代學者們統計出的結果表明,從1563年到1625 年,倫敦因鼠疫而死亡的人數是相當驚人的。
格蘭特死亡統計表
年份 死亡人數 鼠疫死亡人數 倫敦人口 死亡率
1563 20372 17404 85000 24.0
1593 17893 10675 125000 14.3
1603 3l861 25045 141000 22.6
1625 41312 26350 206000 20.1
死亡統計表基本上就是隨機的一組組信息,而格蘭特將其歸納整理並在其中找到了規律,他意識到這些信息簡直就是個大寶藏。格蘭特想知道誰是死於瘟疫而誰又是死於其他原因,他將所有的死亡記錄彙編在一起,而這些統計數據讓他發現了別人沒發現的規律。後來他將自己的成果整理成書,留傳至今。在他的書裏,他列出了一係列死亡原因,並將其歸類整理,現在的我們如果對這場瘟疫感興趣,可以翻開這本書,找到當時人們的死因。比如,在1632年,38人死於淋巴結核病,一人因被瘋狗咬傷死亡,另有12人死於法國花柳病,也就是今天所說的梅毒。而在瘟疫受害者的數據中,格蘭特發現了隱藏的規律,這一發現顛覆了當時人們對於疫病起因的觀念。直到今天,他在書中整理和分析的這些數據對於醫學也有極其重要的價值。
當時,很多人都錯誤地認為瘟疫是由人與人接觸而傳播的,還有不少人迷信地認為新國王登基那一年往往會出現瘟疫,總之,各種說法層出不窮。格蘭特通過數據分析逐一反駁了這些錯誤說法。他對數據研究得越多,發現了越多隱藏的規律,而人們也通過他的數據分析開始從全新的角度觀察倫敦城。格蘭特第一個通過科學辦法估算出了倫敦總人口,證明了男嬰的出生率要高於女嬰,而更高的男性死亡率又使性別比例很快恢複了平衡……他告訴世人可以通過挖掘數據得到驚人而實用的想法——隻要你使用了正確的方式去挖掘。他的研究徹底改變了人們對於信息的觀念,並革新了提取有用數據的方法,格蘭特算得上是數據分析領域的先驅者,後人都將他視為統計學流行病學的奠基人,一些學者將1663年約翰·格蘭特根據死亡率統計表編訂出版的《自然與政治觀察》一書視為統計學誕生的標誌。
也許你會好奇,同時期的其他人又是如何對待瘟疫的呢?人們在極度恐懼之下想出了各種方法:使用通便劑、催吐劑、放血療法、煙熏房間、燒灼淋巴腫塊並在其上放置幹蛤蟆,或者用尿洗澡,甚至通過醫生凝視患者來“捉住”疾病。當這些都不能奏效時,深受中世紀宗教思想影響的人們便把瘟疫的原因視為上帝對原罪和不忠的懲罰,結果導致基督教大懺悔和宗教改革。然而,宗教狂熱並沒有把人們從鼠疫的魔爪中解救出來。沒有人像格蘭特這樣,想到通過死亡數據找到瘟疫特征的方法。
格蘭特利用數據分析找到瘟疫的規律,這一點和現代計算機學家對待大數據的態度是一樣的。數據是一個金礦,卻需要通過合理的方法來進行挖掘才能獲得巨大的財富。現在人們也常常把數據分析叫作數據挖掘,就是這個道理。
如今,格蘭特的粉絲菲爾·比爾斯教授要采取相似的方式挖掘新的人類數據組,就是構成人類基因圖譜的30億個基因位點信息。他在我們的DNA中尋找有助於診斷並治療疾病的線索。
傑克·皮克特是他的一位病人,14年以來傑克飽受異常症狀的困擾,包括學習障礙、肥胖症還有視力不佳等。他的這些症狀一直找不到原因,這令他的父母和醫生們感到很困惑。在傑克出生的十幾年後,這件事情終於有了轉機。現在,比爾斯教授掌握的技術幫傑克和他的家人解開了這個謎團。他認真研究了傑克的DNA,從中尋找任何微小的基因變異跡象,最終找到了導致這些症狀的變異基因。
比爾斯教授表示,像這樣的例子不算少,每位被分析過的患者的基因都會被添加到日益增加的DNA數據庫中,以此幫助醫生們製定新的治療方法,並確診以前難以理解的症狀。過去的10年裏,這項技術已成功揭露了許多疾病的基因根源。能夠鑒別出疾病常常是幫助患者的第一步。對於患者來說,多年無法確診,他們生活在不確定性中,因此不能低估診斷的好處和重要性。通過分子學檢測,至少能讓患者知道自己的身體到底出了什麼問題,到底能不能進行治療。搞清楚問題本身就是一種安慰,也是某種意義上的了斷,能讓他們甩開過去的包袱,無負擔地向生活的下一章節邁進。
梳理出藏在人類數據組中的規律,正在改變著整個醫學界。數據分析逐漸被更多人使用,成為一種無比強大的工具,一種通往科學見解與理解人類行為的新途徑。
小數據的局限
如果你是一家筆記本電腦銷售門店的主管,哪些方法可以幫助提高銷售額呢?有許多專家、專業人士會給出建議,比如提高庫存管理的能力、為員工提供更多的專業培訓、做更新更炫的廣告,或者搞一些促銷活動。這些方式當然都會很有效,多方麵的統計數字顯示,這樣的方法大致能提高2%~9%左右的銷售額。
但是,曆來講究創新的蘋果公司並沒有這麼做。蘋果公司將門店中所有能夠收集到的數據,不管看不上去是不是有關聯,全都錄入了軟件,然後發現了一個驚人的現象:電腦屏幕和桌子呈70度角左右的電腦銷售量比其他電腦高出15%,而這比其他任何經驗式的建議更有效。這是為什麼呢?因為當我們走到一個70度角的電腦前,會覺得反光非常不舒服,而當人覺得電腦屏幕反光不舒服,自然而然地會伸手去扳動屏幕。心理學理論告訴我們,一旦潛在客戶與貨物發生了肢體接觸,他購買這個商品的可能性就上升了15%。
這個例子對我們有何啟示呢?我們的經驗真的是正確的嗎?我們的知識真的對我們的工作有幫助嗎?我們認為很重要的東西真的那麼重要嗎?
在這個案例裏,人們傳統的經驗完敗於計算機的數據分析,我們對知識和經驗的自信看起來很可笑。
也許有人說,員工個人的建議或者專家、專業人士的建議畢竟都來自個人,如果我們去做問卷調查,詳細了解消費者的真實需求,便能夠有的放矢,找到宣傳推廣的好方法,從而提高消費額。可是,問卷調查到底能夠多大程度上反映出真實情況呢?我們肯定都或多或少地接觸過問卷調研這種方法,但是對於問卷調研的結果,我們又有多少信心呢?
斯坦福大學教育評估專家哈代教授曾經做過這樣一個有趣的小實驗,他關注的內容是不同國家師生在做量表與問卷時的“F值”。F值指的是被試者填寫問卷時出現的掩飾傾向。結果發現,中國學生的F值比美國與以色列學生分別高23.4%與27.6%。而中國教師的這一傾向更為明顯,達到36.5%與41.4%。在中國的文化環境下,師生更容易認為一個量表和問卷是用來評判自己的,從而傾向於掩飾自己的真實想法。所以如果想獲得真實、客觀的數據,問卷並非是個好辦法。
另一種情況是,即使學生想提供真實的信息,有時也無能為力。比如調研學生課外運動的時間,人們最通常的做法是設計一個問卷,問他“本學期平均每周參加課外運動的時間,A.1小時以下,B.1~1.5小時,C.1.5~2小時,D.2小時以上”,且不論選項的設計是否能體現區分度,我們自己又能否比較準確地估算出自己一個學期裏平均每周參加多少運動呢?
還有一種情況,如果我們要在網絡上做一個有關房地產調查的問卷或投票,作為報酬,每個被調查者會獲得一款時尚運動手表,你認為這個問卷的結果能真實反映出中國人對房地產的態度嗎?肯定不能,因為大多數喜歡時尚運動手表的人都是30歲以內的年輕男性,接受問卷調查的群體與設計問卷調查的人設想的群體並不一致。
此外,即使一個調查問卷能夠考慮到以上所有因素,但由於問卷通常隻是抽樣調查而不是全體調查,抽樣的代表性也是一個問題。比如我們要調查一個社區的所有居民對社區環境的看法,社區有1000名居民,其中18歲以下200人,18~60歲600人,60歲以上200人,且男女各半。我們調查時選擇了100個人,其中18歲以下20人,18~60歲60人,60歲以上20人,且男女各半。除此之外,選擇被調查對象時還充分考慮了他們的居住位置、學曆、工作性質等因素。這個調查已經做到這麼精確了,那麼這100個被調查對象的看法能不能準確代表1000名居民的意見呢?這還是不一定的。兩個人即便年齡層次相同、性別相同、受教育程度相同、工作性質相同、居住位置差不多,他們對某個事物的看法也不一定一致。當樣本量不夠大時,設計再精妙的問卷也不能保證能夠獲得真實的看法。
這些問題都說明,我們經常使用的問卷調查的辦法是有很大局限的。那麼,我們要怎麼樣才能獲得真實的結果呢?在之後的章節裏,我們會談到人們在這方麵的諸多探索。
三、互聯網的新時代
複雜計算的煩惱
遠古的人們用石頭來計算捕獲的獵物,石頭就是他們的計算工具。隨著人們社會活動的增加、文明程度的提高,人們需要解決很多計算問題。比如食物太多如何分配,這對於早期的人類來說真是一個甜蜜的煩惱。當僅僅靠大腦來計算會存在錯誤多和效率低的問題時,人們開始憑借一些工具來進行比較複雜的計算。而“計算機”也就跟隨著人類甜蜜的煩惱出現了。
著名的科幻文學大師阿西莫夫說過,人類最早的計算工具是手指,英語單詞“Dight”既表示“手指”又表示“整數數字”。而古代的中國人常用“結繩”來幫助記事,“結繩”當然也可以充當計算工具。除此之外,石頭、手指、繩子、貝殼等都曾是古人用過的“計算機”。
很湊巧的是,不知道從什麼時候開始,很多不同文明地區的人們都想到使用算籌一類的工具來改進計算,其中要數中國的算籌最有名氣。商周時代問世的算籌,實際上是一種竹製、木製或骨製的小棍。古人在地麵或盤子裏反複擺弄這些小棍,通過移動來進行計算,從此出現了“運籌”這個詞,運籌就是計算,後來才派生出“籌”的詞義。中國古代科學家祖衝之最先算出圓周率小數點後的第6位,使用的工具正是算籌,這個結果即使用筆算也很不容易求得。
歐洲人發明的算籌與中國不盡相同,他們的算籌是根據“格子乘法”的原理製成的。例如要計算1248×456,可以先畫一個矩形,然後把它分成3×2個小格子,在小格子邊依次寫下乘數、被乘數的各位數字,再用對角線把小格子一分為二,分別記錄上述各位數字相應乘積的十位數與個位數。把這些乘積由右到左,沿斜線方向相加,最後得到乘積。1617年,英國數學家納皮爾把格子乘法表中可能出現的結果印刻在一些狹長條的算籌上,利用算籌的擺放來進行乘、除或其他運算。納皮爾算籌在很長一段時間裏是歐洲人主要的計算工具。不過,算籌在使用中一旦遇到複雜運算常弄得繁雜混亂,讓人感到不便,於是中國人又發明了一種新式的“計算機”。
著名作家謝爾頓在他的小說《假如明天來臨》裏講過一個故事:騙子傑夫向經銷商兜售一種袖珍計算機,說它“價格低廉,絕無故障,節約能源,10年中無須任何保養”。當商人打開包裝盒一看,這台“計算機”原來是一把來自中國的算盤。世界文明的四大發源地──黃河流域、印度河流域、尼羅河流域和幼發拉底河流域──先後都出現過不同形式的算盤,隻有中國的珠算盤一直沿用至今。珠算盤最早可能萌芽於漢代,定型於南北朝。它利用進位製記數,通過撥動算珠進行運算:上珠每珠當五,下珠每珠當一,每一檔可當作一個數位。打算盤必須記住一套口訣,口訣相當於算盤的“軟件”。算盤本身還可以存儲數字,使用起來的確很方便,它幫助中國古代數學家取得了不少重大的科技成果,在人類計算工具史上具有重要的地位。
15世紀以後,隨著天文、航海的發展,人們在工作中遇到的計算任務日趨繁重,迫切需要探求新的計算方法並改進計算工具。
1630年,英國數學家奧特雷德使用當時流行的對數刻度尺做乘法運算,突然萌生了一個念頭:如果采用兩根相互滑動的對數刻度尺,不就可以省得用兩腳規度量長度嗎?他的這個設想最後直接啟發了“機械化”計算尺的誕生。不過,奧特雷德是一名理論數學家,對這個小小的計算尺的設想並不在意,也沒有打算讓它流傳於世。之後的200年,他的這項發明也一直沒有得到實際運用。18世紀末,以發明蒸汽機聞名於世的瓦特成功地製出第一把名副其實的計算尺。瓦特原來就是一位儀表匠,他的蒸汽機工廠投產後,需要迅速計算蒸汽機的功率和氣缸體積。瓦特設計的計算尺在尺座上多了一個滑標,用來“存儲”計算的中間結果,這種滑標很長時間一直被後人所沿用。
1850年以後,對數計算尺迅速發展,成了工程師們必不可少的隨身攜帶的“計算機”。直到20世紀五六十年代,對數計算尺仍然是代表工科大學生身份的一種標誌。
從織布機到計算機
也許你看到標題後感到很奇怪,織布機和計算機有什麼關係?是的,看上去它們一點兒也不像,可實際上它們之間的“血緣”關係超乎你的想象。無論是電腦桌上的台式計算機、客廳的平板電腦還是塞在口袋裏的智能手機,這些都是1804年誕生的一台織布機的子子孫孫。想不到吧?
19世紀早期,法國裏昂的絲織工人們就已經能夠使用一種老式的手工提花機編織出圖案非常複雜絢麗的絲綢錦緞。可是,這種老式手工提花機質量低劣、效率低下,它需要有人站在上麵,費力地一根一根地將絲線提起、放下、再提起、再放下……這樣才能織出精細絢麗的絲綢。絲織工人們都像操縱牽線木偶的演員一樣,勞動非常單調乏味而且辛苦勞累。
1804年雅卡爾發明了雅卡爾織布機,這種煩瑣的勞動也隨著發生了改變。這種革命性的織布機利用預先打孔的卡片來控製織物的編織式樣,速度比老式手工提花機快了25倍,就好比從自行車到汽車的飛躍。雅卡爾的打孔卡片不隻為絲織業帶來革命,也為人類打開了一扇信息控製的大門。
1836年,雅卡爾去世兩年後,計算機科學先驅、著名的英國科學家查爾斯·巴比奇使用木齒鐵輪製造了一台計算機用來計算很多數學難題,並利用雅卡爾打孔卡片的原理為這台計算機編程。巴比奇提出了為計算機編程的思想,雖然他沒有發明現代電子計算機,也沒有創立任何一門編程語言,但他的這一理念啟發了20世紀的計算機科學家。後來,人們將巴比奇稱為計算機的鼻祖。
美國憲法要求每10年進行一次人口普查。這在1790年僅有不到400萬人口的美國是比較容易做到的。但是一個世紀後,美國人口達到6300萬。
1880年的一天,美國人口普查局的辦公室裏,一名叫赫爾曼·霍爾瑞斯的20歲年輕人正盯著那堆小山般的人口登記冊發呆。那裏麵記錄著前不久數以萬計的普查員費盡千辛萬苦采集回來的人口數據,而要用效率低下的手搖計算器把這些數據分析完畢,至少要花費7年時間。這意味著幾乎要到下一次人口普查時,美國民眾才能得知這次人口普查的結果。
更讓霍爾瑞斯沮喪的是,據他估算,1890年美國人口總數將在5000萬的基礎上增加1200萬。如果還用老一套的辦法統計,至少需要10年時間才能把所有數據全部搞定。
嚴峻的現實讓霍爾瑞斯下定決心:必須進行改革,要發明一種能高效完成繁重統計製表工作的機器!