第三章 爆發:大數據的力量
有沒有一種辦法,可以準確地預測某個人、某件事或某個群體的未來?人們一直在尋找著答案。從古至今,人們創造了很多辦法去預測未來,古代有星象、棋牌、龜甲、掌紋、麵相、生辰等各種占卜術,現代則有血型等。人們發明了如此多的理論來解釋人類社會的各種現象並據此預測未來,但結果都不是很理想,人們是如何慢慢看清這些事物內在的規律的呢?
七、怎麼準確預測未來
布朗運動與人類活動
某一個人看似毫無規則的行為是不是符合某種規律?在同一種文化或同一個國家的人們,整體上有沒有規律可循?我們能不能找到這麼一種規律,從而預測某個人、某群人、某個國家的未來呢?科學家們一直對此很感興趣。
開始時,人們普遍認為一個人的行為是沒法預測的,今天想吃什麼菜、會去哪裏、和誰打電話、穿什麼衣服,似乎很多時候都是心血來潮、瞬間決定下來的事情。如果把一個人的行為看作一個微粒的話,他的軌跡看著就像是在做無規則運動。
1827年夏天,英國著名的植物學家羅伯特·布朗正在探討花粉在植物受精過程中的功能。布朗從一朵碩大的鮮花中小心翼翼地取下花粉。為了不讓花粉被吹散,他把花粉浸泡在水中,然後放到顯微鏡下觀察。顯微鏡下花粉分裂出的微粒中,有些是圓筒形的。布朗覺得這些圓筒形的微粒可能與植物受精有關,便注視著它們,以便弄清受精的秘密。
布朗發現,這些微粒全部都在運動著,而且似乎毫無規律。他對這一現象百思不得其解。為了搞清這究竟是怎麼回事,布朗又將熟透的花粉囊中的花粉取出來,把它們浸泡在水中,放在顯微鏡下觀察。這一次觀察到的現象使他更為驚奇:比圓筒狀微粒更小的圓形微粒,運動得更為劇烈!
意外的發現使布朗把研究方向轉向花粉微粒的奇異運動。“其他微粒也能發生這種現象嗎?”布朗產生了這樣的疑問。 他把苔類的葉子弄碎,泡在水裏,在顯微鏡下同樣看到了微粒的運動。他又把可以取得的有機物作為觀察的對象,結果還是一樣。這使布朗十分興奮。
布朗推想:有機物是這樣,無機物應該也是如此。於是,他做了很多實驗驗證:把玻璃片弄碎,把一些岩石磨成細粉,又取來石墨等,將它們分別置於水中,一一放在顯微鏡下觀察,結果發現所有微粒在水中都在雜亂無章地運動著。
布朗的發現震驚了科學界,微粒在水中的運動被稱為“布朗運動”。當然,受當時科學水平的限製,這一現象是無法解釋的,但它吸引著科學家們去探討其中的奧秘。
功夫不負有心人。36年後德國科學家維納指出布朗運動與水分子的存在有關。這使科學家們研究的興趣更加濃厚。就連愛因斯坦這樣著名的科學家也參與關於布朗運動的研究。1905年,大科學家愛因斯坦寫了一篇被廣泛引用的論文,從理論上解釋了布朗運動,他的研究也成為分子運動論和統計力學發展的基礎,那一年愛因斯坦還寫了另外兩篇更著名的論文,一篇是狹義相對論,一篇是光電效應。有趣的是,愛因斯坦提出這個理論,卻並不清楚這個理論一定與布朗運動有關。法國物理學家佩林根據愛因斯坦的研究成果做了幾年的實驗,算出了水分子的大小,終於證明愛因斯坦的公式是對的,他因此獲得1926年的諾貝爾物理學獎。
布朗通過實驗證明了這些粒子的運動不是自發的,卻無法解釋為什麼這些粒子會做這種無規則的運動。不過在愛因斯坦的論文發表之前,還有一個人也從理論上對隨機運動進行了研究,1900年,法國數學家巴契裏耶完成了自己的博士論文《投機理論》,這篇論文是曆史上第一次有人嚐試使用嚴謹的數學工具研究並解釋股市的運動,巴契裏耶所推導的公式也領先於愛因斯坦的研究,他認為市場價格同時反映過去、現在和將來,但這些事件與價格變動沒有明顯的關係。股價就像液體中的花粉受到周圍投資者買賣的碰撞而呈現出波動,波動的範圍與時間的平方根成正比。巴契裏耶原創性的研究可以說是財務學的鼻祖,盡管他生前並沒有太大名氣,就是這篇論文也未能得到最優評級,而且論文原稿還遺失了,直到20世紀50年代才被另一個統計學家意外地發現。
很長一段時間,人們認為人類及人類社會的行為和布朗運動是很相似的,人們和懸浮在水中的花粉微粒其實沒有什麼不同之處,絕大部分的人一生之中都是在運動著的。每個人就像一粒花粉一樣,被這個社會生活網絡裏產生的一係列任務、責任以及動機、我們不熟知的潛意識、神經元的顫動等所驅使著,做著看似毫無規則的運動。
然而,在大數據時代,這個觀點被完全推翻。通過對個人及社會的數據分析,分析師們發現,無論是個人還是群體,人們的行動並不是毫無規律的,甚至是非常有規律的,隻是這個規律很難很直觀地被觀察到罷了。大數據專家巴拉巴西甚至在《爆發:大數據時代預見未來的新思維》一書中斷言:“人類93%的行為都是可以預測的。”在大數據時代,很多新工具可以追蹤人類的活動,根據累計的活動數據便可預測一個人或一個群體在未來一段時間裏將要進行的活動。
一條新聞的半衰期
除布朗運動外,還有一個理論也曾用來預測人類的行為,這就是“半衰期”。
半衰期是什麼?這本來是一個物理和化學名詞。一定量的放射性元素在單位時間內自發地發生衰變的次數,稱作該放射性元素的活度,而放射性元素的活度減少至原有值的一半所需的時間,稱為半衰期。換言之,半衰期是指某個樣品中一半的原子核發生衰變所需的時間。不同放射性元素的半衰期差異很大,短的隻有幾天、幾小時、幾分鍾,甚至不到1秒鍾,長的卻可達幾千年、幾萬年,甚至是幾億年、幾十億年。例如,碘-131的半衰期約為8天,銫-137為30年,碳-14為5730年,鈈-239為24000年,鈾-238則為44.7億年。
在互聯網裏,人們把一種與之相似的規律也稱為“半衰期”。統計物理學家的最新研究發現,每條網絡新聞的閱讀量有一半是在發布36小時內達成的,之後讀的人便越來越少,直到沒有人再閱讀。研究人員利用自動分配cookie研究了匈牙利某個新聞和娛樂門戶網站,研究了大約25萬人在一個多月裏的訪問模式。研究發現,網站處於外殼之內的部分能夠得到穩定的訪問人數,而一篇新聞在剛剛發布後獲得的訪問人數最多。
研究人員計算了新聞的“半衰期”,也就是訪問人數達到最終總訪問人數一半的時間,發現半衰期的分布遵從指數規律,絕大多數新聞的生命期很短,但是也有一些在相當長時間後仍然有人訪問,平均半衰期為36小時,這要比簡單模型的預測要長。
這意味著如果一個人不在新聞發布的時候查看就很容易錯過新聞,因此出版商願意提供電子郵件提醒功能。研究還表明,用戶閱讀一個網頁不僅因為它有趣,還因為能夠很容易地訪問。盡管半衰期隨網站類型而不同,指數下降規律應該是普適的,因為這與內容無關。
不僅是新聞具有這種特性,科技文獻的老化也呈現出這樣的特征。
為了衡量科學文獻的老化速度和程度,定量地揭示文獻老化的規律,1958年,英國著名學者J.D.貝爾納借用物理學中放射性物質的衰變性質,生動地描述了科技文獻的老化問題並首次提出了科技文獻半衰期的概念,以此作為衡量已發表文獻的老化程度指標。所謂文獻的“半衰期”是指在該時間內,已發表的某一學科或領域內尚在被利用的全部文獻的一半。國內外許多學者對文獻老化半衰期進行了廣泛的研究,並提出了許多不同的數學模型。
半衰期這個理論模型在很多領域都得到了應用,在預測人類行為時卻並不是那麼有效。“半衰期”理論用於解釋人類行為,就像一件不合身的衣服穿在身上一樣,有些地方可能合適,而有些地方不是鬆了就是緊了。我們的行為並不完全是根據半衰期來進行的。比如我們可能玩某個遊戲,開始時被吸引,每天花好幾個小時玩,後來新鮮感退去,玩的時間越來越短,這個可能用半衰期是可以解釋的。但是,另一些例子無法解釋,比如我們可能一周甚至兩周不整理房間,然後自己完全受不了了,花上一整天的時間收拾房間,而不是第一天花一個小時整理房間,第二天花半個小時整理。又比如,我們可能兩個月都沒有和某個朋友打電話聯係,而突然遇到某件事情需要請教他時就跟他聊上兩個小時。人類的行為似乎有很多是心血來潮的,完全不遵循半衰期的模型。
還有很多類似於布朗運動和半衰期的理論模型,在提出後都沒能完美地解釋人類行為。那麼,人類行為到底是如何得到預測的呢?
八、長尾理論
多少個漢字才夠用
1932年,哈佛大學語言學專家G.K.齊普夫在研究英文單詞出現的頻率時,發現如果把單詞出現的頻率按由大到小的順序排列,每個單詞出現的頻率與它的名次的常數次冪存在簡單的反比關係,這種分布又被稱為Zipf單詞定律,它表明在英語單詞中,隻有極少數的詞被經常使用,而絕大多數詞很少被使用。實際上,包括漢語在內的許多國家的語言都有這種特點。
英文單詞特征是這樣,那麼換成漢語又是怎樣的呢?
2005年,有一條題為《我國常用漢字有多少》的新聞報道很有意思,全文是這樣的:
教育部、國家語委首次向社會發布“2005年中國語言狀況報告”顯示,我國常用漢字在減少。此次調查平麵媒體、有聲媒體、網絡媒體文本文件890多萬,總共9億字次,其中漢字是7億多,但發現媒體用漢字8225個,平麵媒體、有聲媒體和網絡媒體三者共同的漢字是5607個。581個漢字就可以覆蓋其中的80%,當覆蓋率達99%的時候隻需2315個字。一個人如果掌握10000多條詞語、900多個漢字,就可以閱讀90%左右的出版物。
一個小學生大約掌握的漢字為2800個,這篇報道無疑告訴我們,一個小學生在閱讀90%以上的出版物時不會出現生僻字。國家在1988年公布的《現代漢語常用字表》選收了2500個常用字、1000個次常用字,總共隻有3500字,數量上並沒有超過最初的文字甲骨文。那麼,漢字總數到底有多少呢?