領導文萃(2014年2期)-正文大數據的中國陷阱

大數據的中國陷阱

邊緣思想

作者：安替

現在，上到高官，下到推銷員，左一句“新媒體”，右一句“大數據”，預示著從美國傳來的“大數據”浪潮也會和微博一樣，很快就要進入中國的主流話語。既然從美國的推特（Twitter）到中國的微博，有太多重大變化，那麼“大數據”這樣的美國產物，在進入中國之後，會發生什麼樣的嬗變？

要理解大數據浪潮，有兩個樣板。一個是幻想項目，美國正在熱播的電視連續劇《疑犯追蹤》（Person of Interest），講述了美國國安局有一台記錄全球監控畫麵和通訊信息的大“機器”，能根據擁有的海量數據預測犯罪相關人。另一個是現實工程，奧巴馬兩次大選的成功，就是背後科技團隊對大數據的挖掘和整理，所以能得出和主流媒體不同但更準確的預測。大數據的魔力就在於，它能預測未來，掌握這樣的未來信息，就能控製商業和政治。

但無論是幻想的“機器”還是奧巴馬大選團隊，大數據魔術得以實現的關鍵是，這些數據是基本準確和真實的。幻想的美國國安局“機器”收集的是監控視頻、電話記錄、銀行轉賬、稅單、網絡言論，如果要準確預測出一個行為不合理的反社會人物，這些數據必須真實可靠。而大選大數據戰略，更是完全要依賴包含選民具體信息所謂“電話銀行”的準確性。因此，在催票過程中，兩黨選舉團隊和盟友，必須派出海量的誌願者，挨家挨戶在選區敲門（Canvass），除了提高投票率，更重要的是更正“電話銀行”住戶各類信息的錯誤。筆者前年11月就在弗吉尼亞州一個選區參與了這種Canvass活動，親身感受到“大數據”背後是繁重的確認工作。

當大數據引入中國時，立刻會遇到數據的中國陷阱——失真。美國著名統計學者、《紐約時報》博主Nate Silver利用各州民調數據，得出奧巴馬會大幅度贏得第二次大選的預測，擊敗蓋洛普全國民調，但想想他如果用的是中國各省民調，能得出什麼樣的結論？在中國做有關社科方麵的研究，第一要則就是別相信任何現成的調查數據，必須想辦法親自動手另起爐灶。很難想象，依賴各種編造、浮誇、以應付為前提的“大數據”，這項技術在美國會達到正麵的戰略效果。

數據失真的背後必有深刻的政治社會原因。在數據收集方麵，必須有最基本的隱私保護、言論保護和人權保護製度，公民才敢於向有關機構公布個人信息，已發表的信息才可長久存在。另外，政府也按照法律公開各種信息，以回報公民對政府的信任，減少公民因隱私被獲取而產生的恐懼感。這在各種觀點性數據的收集方麵尤為重要。目前各種基於社會媒體的輿論分析，在很多方麵是個笑話：因為各種原因刪帖，或經大力“引導”後的“輿論”分析，能當真嗎？這就是過去幾年大部分對微博的數量分析都不能看的原因，逼得哈佛教授Gary King需要自己建一個社交網站才能獲得真實數據。

目前在中國有前途的大數據分析，大多是對商業行為的分析，因為數據來自真實的購買記錄，失實率低。但這種分析無外乎就是數據庫運算加一部分的外來數據挖掘，與我們所說的“大數據”的功能與意義相去甚遠。

即便解決了收集數據的真實性問題——比如直接調用服務器，進行更加深度的挖掘和人工確認等等，中國大數據的發展也會遇到另一個問題：大數據得出的結論，是自下而上的，這和中國普遍的自上而下決策過程相衝突。大數據其實是決策微民主化過程：重大決策必須參考甚至取決於每個個體決策的總和趨勢，如果隻講“頂層設計”，一定會水土不服。

這樣的數據決策民主是不是有缺點，那是另外一個問題。例如喬布斯的Apple和iPhone，可不是從任何數據得出的決策，他的做法甚至是反數據決策民主的。如果真的要實施大數據戰略，必然包含著決策民主化的過程。

在這種情況下，除了純粹商業大數據分析，任何結論需要提交給非商業的決策者，就會出現一個典型的中國問題：調查報告如果不符合領導思路怎麼會存在？本身是展現技術獨立決策魔力的大數據，在中國，很容易會淪為“大忽悠”，為了領導和客戶的喜愛，而故意修改數據模型甚至結論本身。

“大數據”其實是公開社會條件下數字化治理的決策智能版，而中國的數字化治理也隻有在一些已經或者努力在海外上市的公司，才在西方大環境的壓力之下被迫實現。因此，幾乎成為“機器神祇”的美國大數據，進入中國之後，也隻能強化商業購買上的預測力，卻很難發揮其社會魔力。

（摘自《財新新世紀周刊》）