大數據戰略——個人、企業、政府的思維革命與紅利窪地（精）-第三章爆發：大數據的力量

2013年8月16日，中國A股市場出現了戲劇性的驚人一幕，大盤不溫不火的走勢在上午11點突然出現異動，滬深300成分股中國石油、中國石化以及14隻銀行股等71股先後在瞬間被拉升至漲停板，滬指迅速翻紅，最高漲達6.52%衝擊2200點。下午，光大證券先是發布臨時停牌公告，隨後發布公告稱：光大證券股份有限公司策略投資部門自營業務在使用其獨立的套利係統時出現問題，公司正在進行相關核查和處置工作。公司其他經營活動保持正常。這起被稱為“光大烏龍指”的事件引發整個證券市場的巨大波動，甚至引起全球媒體的關注，這在國內還是第一回。而同樣是烏龍指，2010年5月6日下午2時47分左右，美國一名交易員在賣出股票時敲錯了一個字母，將百萬誤打成10億，導致道·瓊斯指數突然出現千點的暴跌。雖然出錯的是交易員，但美國眾多證券機構普遍使用的套利係統出現了自動的操作，引發了指數的千點暴跌。

這兩件事情都是“黑天鵝”的威力。那麼“黑天鵝”和正常的正態分布有什麼不同呢？舉一個例子就能明白冪律分布與正態分布的區別：一個屋子內有 100個人。姚明走了進去，平均身高並不會有太大變化，而當比爾·蓋茨走進去後，整個屋子的人都“平均”成了千萬富翁。為什麼會這樣呢？因為就人的身高呈現出的正態分布而言，人的財富就是呈冪律分布，而比爾·蓋茨的財富就成了“黑天鵝”現象。如果按正態分布來計算，2008年的金融風暴200萬年才會遇到一次，而事實是這樣的“黑天鵝”事件每隔幾年就會出現，而真正決定我們命運的正是那些“黑天鵝”事件。

隨機是一種錯覺

讓無數個沒有思想的猴子沒完沒了地坐在打字機前亂敲字鍵，隻要給它們足夠的時間，它們也會敲打出一部《莎士比亞全集》來。這個假設由18世紀英國生物學家赫胥黎提出來後，便一直讓科學家們著迷。這個說法在數學上是能自圓其說的，讓所有字母一直隨機排序排下去，確實可能排列出一部《莎士比亞全集》的，雖然概率小得可以忽略不計。

在美國動畫情景喜劇《辛普森一家》中，資本家伯恩斯先生把霍默帶到他的豪宅中，宅邸的一個房屋裏1000隻猴子正在1000台打印機前打著字，伯恩斯先生拿起其中一隻猴子打出的字句，發現寫的是：It was the best of times，it was blurst of times（原句是狄更斯的It was the best of times，it was worst of times）。雖然猴子寫錯了狄更斯的名句，但是它好歹寫出了一個完整的句子，那麼無限隻猴子是否真的能打出莎士比亞的著作呢？

現實中，猴子打出一篇完整的文章的概率幾乎是0，這是因為現實中我們很難實現“無限”這個條件。後來一個軟件開發者想到將很多電腦連接在一起，通過軟件來模擬猴子們在打印機前打字的情形。虛擬化的猴子會隨意敲出鍵盤上任意一個字符，然後它們敲出的“作品”會由計算機拿來與莎士比亞的著作進行單詞對比，如果對比通過，就說明虛擬猴子寫出了莎士比亞著作中的一個詞組。

書名完成比例完成的總字符總字符數

《情人的委屈》 47.80% 5555 11621

《仲夏夜之夢》 49.83% 37033 74312

《莎士比亞全集》 51.31% 1896400 3696348

《終成眷屬》 49.15% 50586 102917

《皆大歡喜》 50.05% 47600 95100

《亨利八世》 49.75% 55413 111393

《無事生非》 49.83% 45694 91707

虛擬猴子完成比例表

所有莎士比亞的著作都來自一個免費電子書網站，隻要有字符匹配，代表相應著作的圖片上的相應位置會變綠，白色的代表虛擬猴子還未打出匹配的字符。在雲電腦上的虛擬猴子的數據每30分鍾會更新一次，現在虛擬猴子們已經完成幾乎一半的莎士比亞著作了，當然這裏指的是打出莎士比亞著作中出現的一半單詞或詞組，而不是按照每個單詞的順序完成的作品。

那麼，如果換成真的猴子，實驗結果會怎麼樣呢？還真有人做過這麼一個實驗。

普利茅斯大學從事傳播學研究的師生在英國藝術委員會的支持下，在佩根頓動物園對6隻蘇拉威西短尾猴的文學素養進行了測試。他們將1台電腦“借給”6隻短尾猴，沒一會兒，領頭的那隻雄性猴王就操起一塊大石頭，照著電腦劈裏啪啦一頓猛砸。而另一隻小猴子的態度則友善得多——它不聲不響地坐到鍵盤上，似乎是在思考什麼問題。結果發現，它隻是在那上麵撒了一泡尿，八成這小家夥是把電腦當成新式高科技馬桶了。一個月的時間過去了，好在最終這6隻猴子還是打出長達5頁紙的文字交差，不過研究者發現猴子們的“作品”沒有任何文學價值。這段“猴文”中出現得最多的字母是S，此外還有少量字母A、J、L和M穿插其間。看來它們連一個像樣的單詞都敲不出，猴子的傑作在信息學意義上隻能為零。無論給它們多長時間，無論它們創作出多少個零來，其結果是毫無意義的。

設計這項試驗的普利茅斯大學媒體實驗室講師傑奧夫·考克斯說：“這項試驗的目的是為了說明動物和機器的不同，動物不能被還原到像計算機那樣進行隨機處理的水平。”

事實上，我們生活中經曆的大部分事件都不是隨機發生的，很多看上去毫無規律的隨機事件都隻是人們的錯覺。生命在所有時間尺度內都是具有爆發式的——從幾毫秒到幾小時的細胞活動；從幾分鍾到幾周的人類活動；從幾周到幾年的疾病來襲；還有從幾千年到幾百萬年的進化過程。爆發式是生命奇跡的必要因素，顯示出生物為了適應和存活會進行不懈的鬥爭。

一般情況下，基礎科學轉化成實際應用需要走的路很長。20世紀的科學奇跡量子力學在近半個世紀以來都沒有發揮什麼實際作用，直到發明晶體管才打破了這種僵局。同樣，盡管人類基因組的解碼引發了醫學革命，但10年後市麵上的所有藥品還是通過基因組發現之前所使用的試錯法研製出來的。

我們越是發現自己的身體細胞容易出現問題，就越覺得我們能經常保持健康是個奇跡。但一想到兩個蛋白質找到彼此的可能性要比你和最好的朋友各自在北京的胡同裏閑逛時奇妙地相遇的可能性還要小得多，你可能不禁會問：我們的基因為何會做得如此成功呢？

這確實是一個很難回答的問題，不僅僅是普通人想不明白，就連生物學家也一直對細胞協調眾多基因、蛋白質、代謝物以及構成組織的RNA分子的能力感到不可思議。我們之所以對這個過程知之甚少，主要是因為細胞實在是太微小了，要想像逛故宮一樣仔細地探究細胞的內部世界，真的不是一件很容易的事情。

在另外一個完全不同的時代和領域裏，達爾文猜測每個新物種的出現都是一個漸進的過程，現有物種孕育出多少有些差異的後代需要經曆一個漫長的過程。但這種連續變化的證據不僅過去少有，就算是現在也很少見，因而達爾文稱證據的缺少是“對我的理論的最有力的反駁”，因為沒有證據的話，達爾文的學說不過是一種合乎邏輯的假想。

實際上，幾百萬年前的化石幾乎沒有顯示出進化改變。大致每隔幾萬年就會出現一種新物種，這跟進化的時間相比簡直猶如一瞬。進化具有爆發式，這在一代又一代的化石中都有記錄。在頗感奇妙的同時，這些發現也引出一係列難解的謎題。首先，如果不是決定和優先級設定產生了爆發式，那麼為什麼爆發式會出現在這麼多係統中？我們能夠解釋這種普遍性嗎？

知識似乎也具有爆發式，一個靈感的火花可能照亮幾個世紀以來都未明了的混沌。一旦我們找到一個解決辦法，我們真能解決所有問題，還是僅僅引發了更多問題？這兩個問題不矛盾，因為很多思想或科學上的大變革帶給人的啟迪總是多於禁錮。

由於我們隻看到成功者，而由此形成的對機遇的歪曲看法，比如說我們常會認為長得英俊漂亮的人薪水會比較高，其實這是因為我們經常隻注意到那些薪水比較高的人，或者說那些薪水比較高的人容易被我們注意到罷了。

回到讓猴子隨機打出《莎士比亞全集》的問題，如果我們把這個推理往前推進一步：猴子中的大文豪已誕生，讀者願意拿畢生的積蓄去賭這隻猴子會打出《莎士比亞全集》嗎？一般推論上的一大問題是：靠資料做結論的人，往往比別人更快、更有信心地墮入這個陷阱中。我們擁有的資料越多，淹沒在裏麵的可能性越高。略懂概率法則的人往往根據以下的原則做決定：一個人如果沒有做對一些事情，就極不可能持續有很好的表現，因此績效記錄變得十分重要。他們探究表現成功的可能規則並且告訴自己，如果某人過去的表現優於他人，那麼將來表現優於他人的概率也很高。但是一如以往，隻懂少許概率知識比完全不懂概率的結局更慘。不可否認，假如某人過去的表現優於他人，便可推測他將來也可能有更好的表現。但是這種推測非常薄弱，以至於決策時一無可取。為什麼？因為最重要的是兩個因素：他從事工作的隨機成分多少，以及有多少數目的猴子參與。起初的樣本數有多少十分重要。如果總共隻有幾隻猴子，那隻打出《莎士比亞全集》的猴子肯定是值得刮目相看的。