第三十一章

正在發生的未來2

21世紀初,曼哈頓地區檢察官辦公室有一個名為麥克·弗勞爾的律師,在他從事律師期間,負責過從謀殺案到華爾街金融犯罪等多種訴訟案件,可以說是聞名遐邇。後來,他轉到一家大型的企業律師事務所工作。但在一年以後,他發現,這種生活對他而言是毫無意義的。於是他決定離開,並想要去幫助重建伊拉克。所以,他委托朋友向公司高層提出了自己的請求。最終,他如願以償地被委派到了綠色區域,即美軍駐巴格達市中心的安全地帶,成為薩達姆·侯賽因審判律師團中的一名律師。

在這裏,麥克·弗勞爾主要負責將證人安全運送到綠色區域。但這個過程卻是非常艱難的,其間需要通過避開無數個每天都會上演隨時都會出現的簡易爆炸裝置的襲擊。在這個過程中,他了解到了軍隊人員是如何將這當作數據問題來進行處理分析,並預測出一個較為安全的運送路線的全部手段。

所以,在他回到紐約後,麥克·弗勞爾便想利用這些方法去打擊犯罪。之後,他被任命為專案組成員,研究可能揭露2009年次貸醜聞罪犯的數據。弗勞爾利用自己所了解的數據分析方法將這個任務完成得非常出色,這也讓當局認識到了數據分析的重要性。一年後,紐約市市長布隆伯格要求擴大規模,弗勞爾則成了第一個“分析主任”,而他的任務則是尋找一些優秀的數據科學家組成一個團隊,對城市尚未開發的信息進行分析處理,收獲一切可能的效益。

起初,弗勞爾也找到了一些頗具權威的統計學家,但卻發現他們大多利用傳統的思維去分析問題,所以他便果斷放棄了他們。弗勞爾說:“我需要的是擁有敏銳洞察力和強大執行力的人,一些隻懂喋喋不休研究數字的人,並不是我所關注的。”最後,弗勞爾一共選擇了五個人,其中四個都是剛走出學校的學生。用弗勞爾的話說,這些人都具備常人難以企及的創造力。

事實也正如弗勞爾所料想的那樣,利用通過對大量數據進行分析和處理,他們在短短幾年時間就取得了很大的效益。其中,他們負責的 “非法改建”一案,就是一個經典的解說。

最初,他們的工作也會遇到很多困難,因為可以利用的許多數據的形式過於多樣化。就拿“非法改建”一案來說,他們在進行過程中就遇到了很多問題。比如說,在一座城市裏,對某一地段的地理位置的描述是多種多樣的,所謂見仁見智,其價值也就各不相同。而且,每個機構和部門也都有自己的描述方式。這就導致了數據難以統計,並且使這些數據擁有了不確定性。

但這些困難並沒有讓弗勞爾退縮,他和他的夥伴們在不斷的探索中,還是找到了處理的方式—以笛卡爾坐標係為基礎,取用周圍建築物周圍的一片輻射範圍,並從其他機構的數據庫調取出地理位置數據,並將這些數據整合,建立一個係統係統。這些數據並不精確,但是由於信息量的巨大,恰好彌補了這點不足。

雖然他們的工作得以順利進展,但弗勞爾和他的團隊並不滿足於僅僅對數據進行運算更多的時候,他們會親臨現場,對現場工作進行觀摩和記錄,並且詢問一切流程的開展效果。隨著時間的推移,弗勞爾和他的團隊對數據采集分析處理的手段也越來越多,數據也越來越精確,可以說為城市的發展,繪上了濃重的一筆。

時至2011年,弗勞爾和他的小夥子們已經能夠利用他們的係統和方法,對“非法改建”之類的投訴進行全麵係統的分析,並將他們認為前5%有火災危險的投訴轉交給檢查員立刻跟進。事實上,他們分析的結果總更是讓人瞠目結舌,所有案件的後續發展都與他們推斷的結果驚人地一致。再想想他們的工作方式,更是令人驚心動魄。他們所能夠利用的僅僅是一些擱置了多年的數據而已。而他們正是運用了自己的新方法對這些信息進行了管理分析,從中提取出它們真正的價值。想要做到這一點,除了需要敏銳的洞察力之外,最為重要的一點,就是大量的數據。隻有在大數據的前提條件下,他們才能夠做到如此精確的預算,而這在較小數據中是做不到的。

這也就是大數據的縮影。

至此,通過弗勞爾的經曆,我們可以得知,大數據的運用已經代表著“信息社會”正式降臨。也就是說,我們所收集到的所有數字信息,都可以利用現在已有的技術手段進行分析,然後加以利用。

現在,我們能夠獲取信息的渠道已經越來越多,可以用來分析的數據也越來越充分。因此,我們可以毫不誇張地說,數據已經不再是限製我們努力的因素了。我們可以利用更多的數據,甚至是全部的數據。但是這需要一個前提,就是利用非傳統的方法,改變理想中我們想要知道的有用信息的因素。可以肯定的是,隨著大數據應用的大量湧現,數據量將繼續增長,與之相對的處理信息的能力也會逐步增長。但是,現在很多人的思維還存在一個誤區,那就是將大數據當作一個技術問題,認為大數據的發展應該側重於硬件或軟件。其實不然,硬件或軟件的問題固然會影響到我們對數據的利用,但我們現在更應該考慮的是,在我們利用數據做出分析後,我們應該去做什麼,或者說是會發生什麼。

在這個問題上,我們在分析數據的準確性、正確性、純潔度和嚴格度時,也要允許一些不精確的存在。要知道,某些數據本身就是模棱兩可的,並沒有絕對的完全對或錯的限定標準。尤其是當數據的規模和幅度擴大時,這些數據上的混亂所能帶來的影響就微乎其微,甚至可以忽略不計了。相反,或許這些數據還能給我們帶來一些意想不到的好處。比如說,當我們隻想使用一小部分數據時,就根本沒必要捕捉這麼多的知識細節,我們隻需要了解信息的大概,就能夠解決問題。這樣一來,這些稍微有所欠缺的數據就成為我們的首選,既不會影響大局,又能使我們達到目的。同時,利用這些數據,我們也可以用更快捷便利的方式找到數據的相關性,而且效果還會更好。所以,我們就可以省去尋找因果關係的努力。當然,很多時候,我們對於數據還是要嚴謹對待的,尤其是某些行業,我們更是需要利用一些精心策劃的數據來做因果關係的研究和控製實驗,隻有這樣才能不帶來負麵影響。比如,測試藥物的副作用等。但在日常情況下,我們隻需要知道“是什麼”就已經足夠,根本沒有必要去弄清楚“為什麼”。由此可見,大數據的相關性比人們探索數據的“因果關係”更有前景和領域。

另一方麵,我們也要了解到,大數據在給我們帶來巨大利益的同時,也會給我們帶來巨大的風險。首當其衝的一點,就是它會使得一些保護隱私的法律手段和核心技術失去效果,部分個人隱私將不再屬於私密範圍。比如,名字、社會安全號碼、稅收記錄等。這還隻是其中之一,更為讓人揪心的是行為傾向的問題。隨著大數據預測的準確性越來越高,能夠預測行為的發生已經不足為奇,一些國家甚至僅憑數據分析,就在人們犯錯之前做出懲處,這是讓人非常難以接受的。這不僅違背自由意誌的原則,同時也否定了人們會突然改變選擇的可能性。因此,在利用大數據對個人進行評估分析時,必須要保證人類意誌神聖不可侵犯的權利。