正文 大數據的中國陷阱(1 / 1)

大數據的中國陷阱

邊緣思想

作者:安替

現在,上到高官,下到推銷員,左一句“新媒體”,右一句“大數據”,預示著從美國傳來的“大數據”浪潮也會和微博一樣,很快就要進入中國的主流話語。既然從美國的推特(Twitter)到中國的微博,有太多重大變化,那麼“大數據”這樣的美國產物,在進入中國之後,會發生什麼樣的嬗變?

要理解大數據浪潮,有兩個樣板。一個是幻想項目,美國正在熱播的電視連續劇《疑犯追蹤》(Person of Interest),講述了美國國安局有一台記錄全球監控畫麵和通訊信息的大“機器”,能根據擁有的海量數據預測犯罪相關人。另一個是現實工程,奧巴馬兩次大選的成功,就是背後科技團隊對大數據的挖掘和整理,所以能得出和主流媒體不同但更準確的預測。大數據的魔力就在於,它能預測未來,掌握這樣的未來信息,就能控製商業和政治。

但無論是幻想的“機器”還是奧巴馬大選團隊,大數據魔術得以實現的關鍵是,這些數據是基本準確和真實的。幻想的美國國安局“機器”收集的是監控視頻、電話記錄、銀行轉賬、稅單、網絡言論,如果要準確預測出一個行為不合理的反社會人物,這些數據必須真實可靠。而大選大數據戰略,更是完全要依賴包含選民具體信息所謂“電話銀行”的準確性。因此,在催票過程中,兩黨選舉團隊和盟友,必須派出海量的誌願者,挨家挨戶在選區敲門(Canvass),除了提高投票率,更重要的是更正“電話銀行”住戶各類信息的錯誤。筆者前年11月就在弗吉尼亞州一個選區參與了這種Canvass活動,親身感受到“大數據”背後是繁重的確認工作。

當大數據引入中國時,立刻會遇到數據的中國陷阱——失真。美國著名統計學者、《紐約時報》博主Nate Silver利用各州民調數據,得出奧巴馬會大幅度贏得第二次大選的預測,擊敗蓋洛普全國民調,但想想他如果用的是中國各省民調,能得出什麼樣的結論?在中國做有關社科方麵的研究,第一要則就是別相信任何現成的調查數據,必須想辦法親自動手另起爐灶。很難想象,依賴各種編造、浮誇、以應付為前提的“大數據”,這項技術在美國會達到正麵的戰略效果。

數據失真的背後必有深刻的政治社會原因。在數據收集方麵,必須有最基本的隱私保護、言論保護和人權保護製度,公民才敢於向有關機構公布個人信息,已發表的信息才可長久存在。另外,政府也按照法律公開各種信息,以回報公民對政府的信任,減少公民因隱私被獲取而產生的恐懼感。這在各種觀點性數據的收集方麵尤為重要。目前各種基於社會媒體的輿論分析,在很多方麵是個笑話:因為各種原因刪帖,或經大力“引導”後的“輿論”分析,能當真嗎?這就是過去幾年大部分對微博的數量分析都不能看的原因,逼得哈佛教授Gary King需要自己建一個社交網站才能獲得真實數據。

目前在中國有前途的大數據分析,大多是對商業行為的分析,因為數據來自真實的購買記錄,失實率低。但這種分析無外乎就是數據庫運算加一部分的外來數據挖掘,與我們所說的“大數據”的功能與意義相去甚遠。

即便解決了收集數據的真實性問題——比如直接調用服務器,進行更加深度的挖掘和人工確認等等,中國大數據的發展也會遇到另一個問題:大數據得出的結論,是自下而上的,這和中國普遍的自上而下決策過程相衝突。大數據其實是決策微民主化過程:重大決策必須參考甚至取決於每個個體決策的總和趨勢,如果隻講“頂層設計”,一定會水土不服。

這樣的數據決策民主是不是有缺點,那是另外一個問題。例如喬布斯的Apple和iPhone,可不是從任何數據得出的決策,他的做法甚至是反數據決策民主的。如果真的要實施大數據戰略,必然包含著決策民主化的過程。

在這種情況下,除了純粹商業大數據分析,任何結論需要提交給非商業的決策者,就會出現一個典型的中國問題:調查報告如果不符合領導思路怎麼會存在?本身是展現技術獨立決策魔力的大數據,在中國,很容易會淪為“大忽悠”,為了領導和客戶的喜愛,而故意修改數據模型甚至結論本身。

“大數據”其實是公開社會條件下數字化治理的決策智能版,而中國的數字化治理也隻有在一些已經或者努力在海外上市的公司,才在西方大環境的壓力之下被迫實現。因此,幾乎成為“機器神祇”的美國大數據,進入中國之後,也隻能強化商業購買上的預測力,卻很難發揮其社會魔力。

(摘自《財新新世紀周刊》)