第五章

多算勝:駕馭大數據

夫未戰而廟算勝者,得算多也;未戰而廟算不勝者,得算少也。多算勝,少算不勝,而況於無算乎。

—《孫子兵法》

行軍打仗必須通過反複計算和信息分析,才有望獲得戰爭的勝利。如何搜集來自各個角落的信息,如何從數據中獲得知識,基於這些發現又將采取怎樣的行動,如何利用這些數據優化公共管理,是最終讓大數據在國家治理領域發揮魔力的重要手段。

大數據大容量、快速度(實時性、更短的時間處理數據)和多樣性(非結構數據為主)的特征,使駕馭大數據遇到了3方麵的難題:

存,即數據采集與存儲,海量且龐雜的大數據從何而來,該如何存儲。

管,即如何管理和分析這些大數據,對於這些碎片化、非結構化的淩亂數據,如何進行整理與分析,在無序中建立一個有序的分析邏輯。

用,即如何呈現和使用這些分析結果,把挖掘的知識落實到實際的公共管理問題上,解決這種大規模複雜結構下的實時應用問題。

傳統的數據處理過程如同打磨一塊玉石,由於可利用的數據不多,隻能細細雕琢手中那塊珍貴小巧的璞玉。但在大數據時代,數據容量龐大,數據生成快速多變。從海量的數據中尋找對管理具有預測和啟示價值的信息和知識,猶如在沙子裏淘金,需要在大量的材料裏耐心地挖掘,才有可能找到如金子般珍貴的知識。如果再繼續用過去埋頭打磨玉石的數據處理方法分析海量的大數據,無異於拿把水果刀宰一頭牛,即使有人給你打下手,還沒殺死牛,人就累個半死了。

數據采集:遍布全球的觸角

在數據分析界流傳著一個很老的“拇指法則”:數據分析工作至少有70%~80%的時間都花在搜集和準備數據上,僅有20%~30%的時間花在分析本身上。如果是剛開始處理大數據,數據準備所花費的時間可能更長。

隨著新的技術采集手段的出現,數據來源和數據類型變得前所未有的豐富。數據信息從來沒有以今天這麼快的速度產生過,也從未如今天這樣如此大量地被搜集過。

塗子沛在其書中介紹了數據搜集的3種方式,聯合國“全球脈動”計劃為與經濟社會發展相關的新數據源製定了一個簡單的分類,在這些研究的基礎上,筆者結合數據采集的最新趨勢,對大數據的新型來源進行介紹。

業務數據

國土資源部、住房和城鄉建設部的不動產登記信息,工商局掌握的企業登記注冊和注銷信息,醫院檢測的體檢就醫信息,養老院保存的老年人健康信息,交通管理部門記錄的車主違章信息,這些業務數據每天都在源源不斷地產生,並且由於信息技術在公共管理領域的應用,引發了業務管理過程中的數據大爆炸。

為推動各領域業務數據的采集,美國政府頒布了最小數據集規則,即每個業務部門必須保證按照一定規範搜集數據,並將其彙總到政府信息部門。也許有人會有疑問,為何要界定為“最小”?政府管理者的解釋是,最小意味著最核心、最重要,它是國家管理層麵強製搜集的數據指標。在美國,最小數據集已經被上升到了立法的高度,即各部門必須強製性地按照最小數據集中界定的數據指標(一般是最重要的數據指標)向政府提交業務數據。例如,美國國會規定,各養老院都必須提交一係列關於老人健康指標的最小數據集給州政府的醫療管理部門,再定期提交給聯邦政府的管理部門。

此外,確定最小還有助於就數據搜集的邊界和格式達成一致的管理意見。最小數據集在美國醫療行業被提出來之初,就是基於醫院和政府的醫療管理部門等不同組織之間交換信息的需求。當然前提是各個最小數據集本身是完整且有效的,它在公共領域的定義和推廣也就成為各部門開發設計自己的信息采集和數據管理係統時的重要參考。

除了公共部門產生的業務數據外,來自企業生產和商業服務過程中的業務數據也不可忽視。例如在超市收銀台,顧客的購物和結賬信息均被掃描進係統,如果顧客突然要求退貨或者更改訂單,這些業務數據都能被寫入後台數據庫。此外,旅行社每月登記的旅行團數據、健身中心保留的會員卡信息,甚至生鮮商品網站記錄的退貨信息,都可視為公眾在使用商業服務中的業務數據,這一類數據比公共領域的業務數據更龐雜,潛藏了巨大的價值。

在信息技術的支撐下,業務數據的采集將更加便利。未來,如果到政府部門辦事,你能拿到一份業務辦理指引單,上麵清晰列出了對申請者的各項要求和辦事流程,減少了溝通成本;所有單據都用條形碼統一標識,相關證件則內置芯片,掃描一下就能輕鬆讀取全部信息;攝像頭即時記錄你的外貌特征作為保存申請信息的密碼,安全快速。如果到醫院體檢,電子血壓儀在給你測量血壓時可以“一心二用”地將測量結果即時發送到你的手機上,同時共享給政府醫療管理部門,實現對公民健康數據的大規模聯網分析。在高速公路上,客運車輛一旦出現超載或者私自拉客等不規範行為,便可由車載人員數字定位係統將關鍵信息同步給車輛管理部門和交通警察進行監控與處理……這將是業務數據大展拳腳的美好時代。

客運車輛上的車載人員數字定位係統

過去,長途客運車輛隨意超載、違章停車甚至中途停車拉客,引發過多起重特大交通事故,客運車輛超員成為引發群死群傷特大交通事故的嚴重安全隱患,是社會關注的焦點。因缺乏對行駛中的客運車輛違規行為進行信息跟蹤和采集的有效手段,無法準確獲得客運車輛乘客人數和區分私拉亂運等關鍵信息的記錄和監控,導致這一現象一直無法根除,難以管理,成為多年公安交警部門頭疼的問題。

近期,河北的車場管理部門在北京中富瑞公司(一家專注於研發數字交通綜合管理係統的公司)幫助下,上線了一套全新的車載人員數字定位及綜合管理係統,對車輛座位信息進行實時采集並傳輸到主站軟件,通過主站軟件能夠實時了解車上每個座位的詳細情況,如人員上下車時間、地點、乘車曆程、票款。車內圖像監控係統獲取車內圖像信息,結合傳感器裝置統計上下車人數及車內乘客數量,數據傳至監控中心,監控中心通過分析運算,自動生成票款營業額日/月報表。

這種產生於客運車輛運營中的業務數據為管理者有效控製票款流失、超載、中途私載等違規現象提供了重要的參考指標,也為車輛管理部門和交警部門治理違規客運車輛提供了重要手段,極大地規避了發生特大交通事故的風險,為乘客安全提供了保障。

調查數據

開展調查研究是我們開展工作的光榮傳統和優良作風,調查數據是政府製定政策的重要依據。大數據時代,這種傳統的數據搜集方法依然具有不可忽視的重要作用。

按照執行主體分,社會調查主要有3類:

第一類是政府部門組織的大規模調研,如人口普查和經濟普查。這種調研是自上而下開展的,要求集中領導和統一行動,雖然獲得的資料比較全麵、精確,但是組織工作複雜,調查內容相對有限。國家和地方統計局是進行數據統計和監測的專門機構,未來它將在經濟社會運行中扮演越來越重要的角色,不僅為國家管理提供重要工具和決策基礎,而且將在服務經濟和社會發展直至百姓生活層麵發揮指引作用。

為減輕政府的信息搜集工作給公民和社會造成的負擔,美國聯邦政府特意成立了信息和管製辦公室,其主要任務就是編製年度信息搜集預算。這份預算與錢無關,它要計算的是政府機構的信息搜集計劃會給全社會帶來多大的負擔。1995年,這個數字是65億小時,這相當於320萬人整整一年的工作量。從那一年開始,信息和管製辦公室不得不製訂更審慎的“減負計劃”,力爭每年的信息擾民時間減少10%。然而隨著大數據時代的到來,2009年聯邦政府數據的信息搜集負擔不減反增,居然達到了99億小時。工作人員十分惱火,不得不推出了5項減負措施,其中包括盡量使用電子簽名以減少信息傳送、投遞時間等招數。

第二類是由大學、研究院所等科研機構組織的調查。比如,中國人民大學開展的中國綜合社會調查 (CGSS)是中國第一個全國性、綜合性、連續性的大型社會調查項目,它通過定期、係統地搜集中國民眾與中國社會各個方麵的數據,總結社會變遷的長期趨勢,探討具有重大理論和現實意義的社會議題,推動國內社會科學研究的開放性與共享性,為國際比較研究提供數據資料。

第三類是各類企業、行業組織或者谘詢公司組織的調查。這類調研主要是為了了解市場的現狀及其發展趨勢,給企業管理決策、產品研發和推廣、投資計劃製訂提供重要依據。

傳統調查大多使用的是紙質問卷,必須由一對一的調研者將問卷發放到被訪者手中完成。調研過程和調研後的數據錄入、處理工作會耗費大量的時間。如果各個環節銜接不暢,數據錄入過程還可能出錯,影響調查數據的準確性。

進入移動互聯網時代,社會調研也逐漸朝更加智慧和智能的方向改變,也許可以輕鬆避開以上陷阱。兒科醫生喬爾在撒哈拉以南非洲地區、南美和亞洲行醫,他另外一個身份便是一家移動醫療服務公司的主管。他開發了一套移動數據搜集係統,幫助非洲乃至世界各地的公共衛生機構,通過手機、平板電腦等移動設備開展問卷調查,被訪者直接在移動設備上填寫問卷,點擊“問卷提交”後,信息便及時上傳到雲平台,這樣不僅能快速搜集調查數據,而且能準確記錄和傳輸數據。這種借助雲計算、移動通信技術升級實現的社會調查數據搜集,真正地做到了調查數據的實時采集和快速處理,也大幅降低了因為人工錄入數據產生差錯的概率。

目前在中國,無論是國家統計局、國家稅務局還是國土資源部都表達了政務信息化過程中對這類移動設備的需求。據了解,下次人口普查對移動設備的需求量在50萬台以上。

環境數據

隨著信息技術的發展,我們所處的環境也變得日益敏感,各種高科技的數據搜集手段讓我們身處的世界日益數據化。

前一段時間英國街頭出現了一款科技感十足的垃圾桶,它不僅配備了大屏幕廣告係統,而且其最重要的特點在於,可通過垃圾桶上方的探測器探測附近的人群和行走速度,完成某些數據的搜集調查報告,有意思的是,它甚至可以檢測到路過的每個人使用的智能手機品牌等數據。

2011年,美國國家氣象局在美國2 000輛客運大巴上安裝了傳感器,隨著巴士的移動,這些傳感器可以搜集沿途所有地點的溫度、濕度、露水、光照度等數據,並立刻傳回國家氣象局的數據中心。數據采集每10秒一次,每天每個傳感器要采集10萬次以上的數據。

在中國湖南省公安消防總隊,消防人員正在借助安裝在樓宇、商場或者車站等公共場所的智能消防指示牌獲知大樓內的火災現場實時情況,並與消防係統聯動形成智能的疏散路線圖,通過分析環境中的數據指導被困人員安全撤離火災現場。這些“聰明”的指示牌還能形成自組網係統,對握有便攜式芯片的消防人員和周圍環境等狀況進行定位與追蹤。

這種來自於公共生活環境的數據被稱為環境數據。人們為了從外界獲取信息,必須借助於感覺器官。在研究及生產活動中,視頻監控和衛星等傳感和遙感設備就是人類感官的延伸,它們就像眼睛、耳朵和皮膚,分布在我們所處環境的任何角落,搜集來自地球各個角落的數據與信息:大到海洋潮汐的變化、氣候冷熱的交替、PM2.5的濃度值,小到某個十字路口的車流量、公園的土壤含水量、消費者逛商場的路線,通過對這些外在環境的數據搜集,加深了我們對於所處環境的認知和控製。

人們在世界各地的工業設備、汽車和電表上安裝了無數的數字傳感器,這些傳感器價格低廉、體積微小、具備無線通信和計算功能,隨時測量和傳輸有關位置、運動、震動、溫度、濕度乃至空氣中化學物質的變化數據。傳感器早已滲入如工業生產、宇宙開發、海洋探測、環境保護、資源調查、醫學診斷、生物工程甚至文物保護等極其廣泛的領域,它是人們獲取數據的重要手段,也是海量數據產生的重要原因。現在在機器、發動機和橋梁等基礎設施上放置傳感器變得越來越普遍了,這些傳感器被用來記錄機器和道路散發的熱量、振幅、承壓和聲音等,以便提前預測機器和道路是否會出現故障。通過搜集這類數據,我們可以預先捕捉到這些信號,進行零件更換或者道路維修。

與此同時,人們也在通過飛機、氣球和衛星搭載的遙感設備搜集著全球的景觀變化、交通模式、光線排放、城市發展和地形變化等數據。例如,全球商業、金融信息和財經資訊提供商彭博動用衛星,每周拍攝位於俄克拉荷馬州的美國最大的石油儲藏庫的照片兩次,並根據房頂上的陰影長度判斷儲油罐內的油量,從而預測石油行情。遙感設備不僅可以實現大麵積、實時、同步觀測,還可以利用不同波段對物體不同的穿透性獲取地表深層、冰層下的水體、沙漠底層等特征。遙感技術形成了對全球進行探測和監測的多層次、多視角、多領域的觀測體係,在數據搜集、處理和判讀分析等方麵發揮著重要的作用。

上海世博會門票上的智能芯片

隨著無線電通信技術的發展,射頻識別技術也在逐漸發展成為一種環境數據搜集技術的主流手段,管理者們可通過無線電信號識別特定環境中的目標並讀寫相關數據。

2010年上海世博會的主辦者、參展者、參觀者、誌願者等各類人群均有大量的信息服務需求,包括人流疏導、交通管理、信息查詢等,射頻識別技術正是滿足這些需求的有效手段之一。

世博會的主辦者關心門票的防偽;參展者比較關心究竟有哪些參觀者參觀過自己的展台,他們關注的內容和產品是什麼及其個人信息;參觀者想迅速獲得自己所要的信息,找到感興趣的展示內容;誌願者需要了解全局,幫助需要幫助的人。上海世博會采用擁有自主知識產權的芯片技術輕鬆實現了上述功能。

參觀者憑借嵌入射頻識別標簽的門票入場,並且隨身攜帶。每個展台附近都放置了射頻識別讀取器,參觀者在展會中走過哪些地方、在哪裏駐足時間較長,這些客流信息能夠實時反饋給參展者。通過帶有射頻識別讀取器的多媒體查詢終端,參觀者可以知道自己當前的位置及所在展區的信息,還能追蹤到走失同伴的信息。

用戶生成數據

傳統的網絡1.0主要是用戶通過瀏覽器獲取信息,而在網絡2.0 時代,互聯網上的內容從下載為主變成下載和上傳並重,用戶既是網站內容的瀏覽者,也是網站內容的編製者。這是互聯網上的數據飛速增長的重要原因。

基於用戶生成內容的互聯網應用受到了人們的普遍歡迎,並且取得驚人的成功。臉譜網、人人網等社交網絡,YouTube、優酷網、土豆網等視頻分享網絡,Flickr等照片分享網絡,百度知道、維基百科等知識分享網絡,豆瓣、天涯等社區論壇,推特、新浪微博等微博工具,都是其典型代表。例如,截至2012年12月底,新浪微博注冊用戶數已超過5億,日活躍用戶數達到4 620萬。