從朝鮮戰場回來的美軍總司令麥克阿瑟將軍得知這個研究之後,感慨道:“我們最大的失策是懷疑谘詢公司的價值,舍不得為一條科學的結論付出不到一架戰鬥機的代價,結果是我們在朝鮮戰場上付出了830億美元和十多萬名士兵的生命。”

看過這些例子,還有誰會覺得舊數據是沒用的垃圾呢?有的數據可能以某一種方式來分析時是無用的,而通過另一種分析方式就能得出有價值的信息;有的數據現在可能沒什麼分析價值,但這不代表它以後也不會有分析價值。大數據時代,沒有不能分析的數據,沒有毫無價值的數據。無論是陳舊的大數據還是新的大數據,都有派上用場的地方。

二十、大數據與國家安全

拉登是怎麼死的

2011年5月1日,巴基斯坦首都伊斯蘭堡以北大約60公裏,阿伯塔巴德鎮內軍事訓練學院附近一座3層建築內傳來陣陣槍聲,空中還有直升機盤旋的聲音。這是4架美國軍用直升機和地麵部隊突襲臭名昭著的恐怖分子本·拉登的場景。在這次突襲中,本·拉登被打死,拉登的一個兒子和兩名隨從被打死,另有一名被用來作為人盾的女人身亡,拉登的兩個妻子、6個孩子和4名親信被隨後趕來的巴基斯坦軍方逮捕;而美方人員無一傷亡。

此前,本·拉登曾經給美國帶來過巨大的傷痛。1998年,美國駐肯尼亞和坦桑尼亞大使館爆炸案,造成257人死亡5000餘人受傷。事後,本·拉登身著一身迷彩服出現在一個錄像中,他承認是他發動的這次恐怖襲擊。2000年美國科爾號驅逐艦遇襲事件,美國軍方也將矛頭指向了本·拉登。2001年9月11日,紐約世貿中心和華盛頓五角大樓等地遭恐怖襲擊後,美國認定拉登是頭號嫌疑犯。此次襲擊事件造成世貿中心雙子塔倒塌,近3000平民死亡。

2001年恐怖襲擊之後,本·拉登便成了美國政府的頭號敵人,被美國列入它的主要通緝犯名單。美國軍方開始了對他長達10年的搜索。然而,本·拉登就像人間蒸發了一樣,到處都沒有他的蹤影。隻有他的錄像帶或錄音帶會偶爾出現,證明這個人還沒有消失。後來,美國中央情報局找到了一個從事大數據分析的公司,找到了本·拉登的蛛絲馬跡。可以說,本·拉登是被大數據擊斃的。這麼一個難以抓捕的人,是如何落入大數據之手的呢?

帕蘭提爾公司的客戶包括美國國家安全局、美國聯邦調查局、美國中央情報局和很多其他的美國反恐和軍事機構。帕蘭提爾公司現在已經變成了進行大規模數據挖掘以供美國情報及執法部門使用的關鍵公司,它們的軟件產品有著流暢的界麵,旗下程序員甚至會空降到客戶的總部進行程序定製。帕蘭提爾公司把混亂無序的大量信息變成直觀的可視化地理分布圖、柱狀圖和關聯圖。隻要給該公司所謂的“前沿部署工程師們”幾天時間,讓他們分析、標記和整合所有零碎的客戶數據,帕蘭提爾公司就能弄清楚各種各樣的問題,例如恐怖主義、災難響應和人口販賣。

美國中央情報局前局長喬治·特尼特說:“我真希望在“9·11”恐怖襲擊之前,能擁有像帕蘭提爾公司這樣強大的工具。”在那些利用帕蘭提爾公司來挖掘有用信息的機構中,包括了美國海軍。他們已經在阿富汗部署了該公司的軟件,以便對路邊炸彈進行刑偵分析,並預測叛軍的襲擊。該公司的軟件還協助找到了謀殺美國海關人員的墨西哥販毒集團成員。在講述奧薩馬·本·拉登喪命經過的《終結》(The Finish)一書中,作者馬克·鮑登寫道,帕蘭提爾公司的軟件“是名副其實的殺手級應用”。

大數據分析不僅在反恐方麵扮演著重要角色,在公共安全方麵也一樣起著重要作用。

不久前,一名偷車賊在美國加州桑塔克魯茲市一個地下停車場準備下手時,完全沒想到幾米外一輛普通汽車裏有一名警察正在吃午餐。還沒來得及完成犯罪,他就被捕了。但這位警察之所以在正確時間出現在正確地點,並非偶然。那一天,他是在一個電腦程序的推薦下,專門到停車場來吃飯的。

過去兩年來,桑塔克魯茲市約有100名警察每天換班時不僅接受長官的指揮,還接受一種算法的安排。該程序每天搜集警察身上設備傳送來的大量數據,計算特定時段和街區的犯罪可能性,將15個最危險街區列成一個矩陣。它所預測的犯罪事件中,有2/3最終真的發生了。

計算機科學家喬治·莫赫勒和專門研究犯罪的人類學家傑弗瑞·布蘭汀漢姆基於震後場景預測模型設計了這個程序。2011年年初,克拉克偶然聽說了兩位學者的創意,3人一起設立了一個實驗性項目。他們將過去8年的犯罪數據輸入程序,還有其他可能的相關數據,如天氣和交通資料。此外,程序還將每兩個犯罪關聯起來。

現在,整個市的警察隊伍都使用高科技設備,他們帶著智能手機和平板電腦,可在巡邏時訪問基於網絡的這個預測係統。光是在美國,已有十幾個警察局使用這一軟件,如洛杉磯、波士頓和芝加哥。桑塔克魯茲市警察局局長斯蒂夫·克拉克最近正在英格蘭幫助肯特郡使用這個程序。

通過大數據分析,警察可以用更簡單更精準的方式預測犯罪。未來,公共安全領域一定會有越來越多的大數據分析應用。從擊斃本·拉登到抓捕偷車賊,大數據分析將在各個安全部門保障公民的人身與財產安全。

大數據的火眼金睛

2013年4月,一本普通的破案小說《布穀鳥的呼喚》上市了,作者是羅伯特·加爾布雷斯,一名前便衣警察,2003年辭去公職進入私人保安行業。直到2013年7月中,還幾乎沒有什麼人知道羅伯特·加爾布雷斯到底是誰。這本書在整個英國零售書商手上也隻賣出了449本,在全球知名的網上書店亞馬遜英國站隻排名5076位。書評家們對該書的評價是:“文筆不錯,故事也吸引人,但是並不突出。”在這本書出版前,有好幾家出版社拒絕了這本書。

可是,一夜之間,這本書的命運就完全改變。在亞馬遜網上書城,這本書迅速爬到暢銷書的前幾位。這個巨變源於一個消息,這個消息就是這個男性名字的作者其實是一名女性。這個消息似乎並不足以吸引那麼多人去看這本書,可是,如果你知道這名女性寫過的其他書,就知道為什麼有這麼大的變化了。

這名女性寫過7集《哈利·波特》,並且以此書成為曆史上第一位寫作收入超過10億美元的作家。是的,她就是J.K.羅琳。以羅琳的知名度和在寫作上的成功,她的小說攀升到暢銷榜前幾位並不稀奇。在作者的真實身份被揭露後,這本書有這樣的銷量變化是很自然的事情。這件事情裏麵,有兩個有趣的地方:羅琳為什麼要隱姓埋名以男人的身份來發表新作?外界又是如何發現羅琳是真正的作者的?

前麵一個問題,羅琳自己回答了。她說:“我一直希望這個秘密能夠保持更久一些,因為作為羅伯特·加爾布雷斯,以另一個名字發表作品,不必麵對外界的任何期望值和吹噓,這是一件美妙的事情,是一種自由的體驗。”第二個問題,則非常有趣了,因為這和大數據有一些關係。

英國《星期日泰晤士報》美術編輯理查德·布魯克斯在他的推特上收到了一條匿名的消息,透露羅琳才是《布穀鳥的呼喚》一書的作者。為了證明這條情報的真實性,布魯克斯想了很多辦法,甚至雇傭了私家偵探。最後,是兩位計算機語言學家幫他解決了這個問題。

布魯克斯請到兩位計算機語言學家來幫助他。計算機語言學家使用的方法是,將羅伯特·加爾布雷斯的《布穀鳥的呼喚》、羅琳的《臨時空缺》、《哈利·波特與死亡聖器》進行科學的比對,比對的內容包括每一本書裏對比所有的詞組,或者相連續的短語集;一種稱為“N-gram”的算法作為語言模型來分析用詞或字符的序列關係、每本書中使用最頻繁的100個單詞,等等。經過了5個多小時的複雜計算後,這兩位計算機語言學家利用這些大數據的分析技術“證明”了羅伯特·加爾布雷斯就是羅琳。

羅琳用“馬甲”出書,這個新聞讓喜歡看《哈利·波特》的人們談論了很久,大家都覺得這個新聞挺有意思的。而有一些有關“馬甲”的新聞,就不是那麼有意思了。

2013年12月,《北京晚報》報道,最近又有一則謠言到處瘋傳,謠言稱最近有人自稱國家工作人員,拿著調查問卷上門,自稱進行人口普查、經濟普查之類的工作。這些問卷上被提前噴了迷藥,隻要接觸一兩分鍾就會暈倒。這些“工作人員”進入家門將財物席卷一空,甚至發生了將孩子搶走的情況。謠言甚至還有一些關於“問卷”的細節,貌似給它增加了一點可信度。據警方介紹,此類謠言無非是“地鐵上噴迷藥搶劫”的變種,屬於以前的謠言換了個馬甲又接著傳下去。此前的謠言就曾讓一些市民產生心理壓力,甚至在地鐵上聞到他人身上的香水味以後過度緊張,而在微博上發出過“險些被人迷倒搶劫”的信息。此類謠言傳播時遍及全國,各地警方陸續進行過辟謠,稱這類以拍肩、看一眼、晃一下等動作就讓人失去意識的手法,可能性接近於零。有民警表示,對於這種辟謠工作已經非常無奈。對於謠言,“信者恒信”,無論怎麼辟謠,總有一批人見到這樣的信息,會迅速轉發,而且自認為“古道熱腸”,圖的就是“萬一真有呢”?但此類謠言確實會對沒有什麼辨別能力的人造成一定心理影響,從而防範一切,加深社會的冷漠情緒。

在社交網絡發達的今天,常常會有一些無端的謠言產生,這些謠言往往具有胡編亂造、貶低他人名譽、有違社會公德、破壞社會良好秩序的特點。由於網絡謠言是通過互聯網傳播的,傳播速度相當之快,如果不及時辟謠,很可能出現嚴重後果。而如何打擊造謠傳謠並追查謠言的源頭、造謠人的真實身份,大數據分析自然是最在行的了。對於網絡謠言,有專業人士建議有關單位用過去舉報證實的謠言和有關單位認為最嚴重的謠言為種子,尋找打造大數據謠言集。分析轉發途徑、僵屍賬號,公正評估出最大造謠者、最大推手策劃、最大傳謠者。

《西遊記》裏,孫悟空有一雙火眼金睛,無論什麼妖魔鬼怪,在他麵前都逃脫不了。大數據分析猶如一雙現代科技打造的火眼金睛,將在保障新聞信息真實準確方麵發揮重大作用。

卡特裏娜颶風

2005年8月23日,美國國家颶風中心發布消息稱,第12號熱帶低壓已在巴哈馬東南方海域上形成。25日,卡特裏娜颶風在美國佛羅裏達州登陸。29日破曉時分,卡特裏娜再次以每小時233公裏的風速在美國墨西哥灣沿岸新奧爾良外海岸登陸。登陸超過12小時後,才減弱為熱帶風暴。這次颶風讓密西西比州、路易斯安那州、亞拉巴馬州和佛羅裏達州至少230萬居民受到停電的影響,另外也造成了大規模的通訊故障。更為嚴重的是,有些城市甚至90%的建築物遭到了毀壞。時任美國總統的小布什說完全恢複到災前水平需要數年的時間。據美國保險業估算,卡特琳娜颶風造成的理賠數字很可能在100億~250億美元。如果算上沒有投保的損失,卡特琳娜颶風造成的損失總金額可能會高達500億~750億美元。另有專家估計,這次颶風給美國造成了大約1000億美元的損失。

颶風所過之處,石油和天然氣行業受到的經濟損失最大。美國墨西哥灣沿岸地區是主要的石油和天然氣產區,那裏有幾十座海上鑽井平台和22個煉油廠。全美國25%的石油和天然氣供應來自墨西哥灣。颶風過後,至少有20座鑽井架或鑽油平台消失無蹤,且有一條天然氣管線破裂起火燃燒。這有可能是石油業有史以來受災最嚴重的一次。墨西哥灣附近1/3以上油田被迫關閉,7座煉油廠和一座美國重要原油出口設施也不得不暫時停工。為了填補這一生產損失,美國能源部長伯德曼宣布,政府將動用美國戰略石油儲備來提供緊急能源供應。小布什也破天荒地要求美國人民在今後幾個星期內節省能源,如果不需要的話,就盡量不要加油。

雖然路易斯安那州和密西西比州的經濟規模隻占全美的2%,但它們對美國經濟的影響之深正在災難中逐漸顯現。墨西哥灣的石油產量占全美的30%,天然氣產量占20%。墨西哥灣的煉油產能占全美的10%左右。煉油廠中的9家已經關閉,其中一部分是因為停電無法開工,還有一些是被洪水淹沒了。

美國1/3的天然氣加工、1/4的海上石油生產和2/5的煉油設施都位於路易斯安那州、密西西比沿線海岸。這些密集的基礎設施平台、管道和煉油廠價值大約8500億美元,而它們都處在颶風的必經路徑。由於全球氣候變化,颶風的強度和密度都大大增加,當海平麵上升時,颶風足以上岸,海水可能淹沒一般設施。根據一個能源谘詢公司的推算,在接下來的20年,這一地區基礎設施將因氣候損失總共大約3700億美元,這筆錢足以重建新奧爾良6次,而路易斯安那州海平麵上升的風險,是佛羅裏達州的6倍。不僅如此,氣候變化也對其他能源造成衝擊,如天氣給電網帶來很多故障,如今每年因停電給美國造成的損失至少達到1000億美元,在1992年,這樣的損失不超過10億。而極端天氣也讓停電變得越來越頻繁。決策者們麵對該氣象數據,以往的決策開始改變。

決策者發現,無論從宏觀還是微觀層麵,隨時了解氣象數據的變化都有助於節約能源。大數據除了能夠在能源的勘探、生產、運輸、消費的各自領域中成為創新的催化劑,更重要的意義在於,在能源供應鏈上疊加了信息鏈,幫助各方更透徹地了解上下遊的行為和變化,從而能夠彼此智能協作,實現整體最優。

由於在油氣行業,勘探開發領域已從常規轉向非常規,從陸上轉向海上,人們對油氣資源的認識和掌握越來越依賴信息技術手段。石油公司擁有的數據越多,對數據挖掘利用得越好,找到油氣資源的可能性和掌控市場的能力就越大。掌握並利用好大數據,是石油公司提高核心競爭力的重要手段。

在電力界,智能電表也成為新的寵兒。華盛頓正在實施一個智能電網試點項目,目標是可以每隔5分鍾就從用戶家裏讀取一次用電數據。有了智能電表,供電公司能每隔15分鍾就讀一次用電數據,而不是過去的一月一次。這不僅能節約大量人工抄表費用,而且由於能高頻率快速采集分析用電數據,大數據從中產生,供電公司能根據用電高峰和低穀時段製定不同的電價,供電公司就利用這種價格杠杆來平抑用電高峰和低穀的波動幅度。有一個供電公司甚至打出這樣的宣傳口號:朋友們,晚上再洗衣服洗碗吧,晚上用電不要錢。這對於供電公司和用戶來說是一個雙贏的變化。巴特爾公司的西北太平洋智能電網示範項目是一個隻涉及5個州6萬用戶的相對較小的試點項目,但它產生的數據量並不小。該項目使用了雙向通訊,智能電網可以從電表接收信息,同時與商用和民用用電設備進行通訊,可以看作是互聯網和電力係統中大量智能設備與傳感器的融合。

大數據分析技術使我們能夠驗證試點項目的智能電網技術的有效性,這對於未來的大規模部署和可再生能源的加入都至為關鍵。軟件還可以幫助新能源行業進行預測,比如太陽能和風能。上述二者的產能穩不穩定,與天氣條件息息相關。有專家指出,風能預測非常必要,因為數據顯示在用電高峰期,風電農場的實際產能變化幅度很大。準確預測太陽能和風能需要分析大量數據,包括風速、雲層等氣象數據。丹麥風輪機製造商維斯塔斯通過在世界上最大的超級計算機上部署IBM大數據解決方案,得以通過分析包括PB量級氣象報告、潮汐相位、地理空間、衛星圖像等結構化及非結構化的海量數據,優化風力渦輪機布局,有效提高風力渦輪機的性能,為客戶提供精確和優化的風力渦輪機配置方案,不但幫助客戶降低每千瓦時的成本,並且提高了客戶投資回報估計的準確度,同時它將業務用戶請求的響應時間從幾星期縮短到幾小時。

能源費用與日俱增,這促使很多商業機構和相關行業企業開始考慮通過技術節省能源開支。要想準確預測能源消耗並采取及時有效的節能措施,需要進行大量的數據分析。另外一個節省能源開支的方法是將未使用完的能源賣回給電廠或電網運營商。一些電廠甚至向那些願意在用電高峰期減少用電量的用戶提供補償款,以降低停電的風險。在這些方麵大數據分析將大有可為。

石油、電力以及新能源企業都在積極擁抱大數據,為此投入大量資金人力,從各個角度來看,大數據分析這個強有力的工具都將革新這個從19世紀就存在的古老行業。