大數據時代--思想政治教育環境新論7(1 / 2)

5

大數據處理和存儲技術源於軍事需求,二戰期間英國研發了能處理大規模數據的機器,二戰後美國致力於數字化處理搜集得到的大量情報信息。計算機和互聯網技術導致大數據處理問題出現,9.11事件後美國政府在大數據挖掘領域組建了大數據庫用於識別可疑人,通過篩選通信、教育、犯罪、醫療、金融和旅行等記錄,之後組建基於網絡的信息共享係統。大規模數據分析技術方麵源於社交網絡,大數據應用使人們的思維不局限於數據處理機器,重要的是新用途和新見解,對大規模信息的處理需求從根本上推動了大數據相關技術的發展,超級計算機的發明、大數據的存儲和處理技術以及大數據分析算法的研發最終導致了教育、金融、醫療等多方麵大數據廣泛應用。

三、大數據的特征

大數據具有以下五個方麵的特點。

1.體量巨大,種類繁多

互聯網搜索的發展、電子商務交易平台的覆蓋和微博等社交網站的興起,產生了無窮無盡的各種數據內容。數據統計機構IDC曾預估2011年和2012年的全球信息總量分別達到1.8ZB、2.8ZB,到2020年將是40ZB;思科公司預測全世界2016年產生的數據總量將達到1.3ZB;穀歌前CEO施密特指出從人類文明開始到2003年的近萬年時間裏人類大約產生5EB數據,而2010年人類每兩天就能產生5EB數據。傳感、存儲和網絡等計算機科學領域在不斷前行,人們在不同領域采集到的數據量達到了前所未有的程度,收集大量數據原因在於網絡數據可以實現同步實時收集,包括電子商務、傳感器、智能手機等,還有醫療領域的臨床數據和科學研究例如基因組研究將GB級乃至TB級數據輸送到數據庫。數據總量的增長由於占到85%以上的非結構化數據的增長,增速比結構化數據快大概幾十倍。對於存儲和網絡企業的投資者來說這類預測能提升信心,美國谘詢公司麥肯錫從個體數據集的大體量定義大數據,指傳統數據庫軟件工具難以采集、存儲、分析管理的巨大的數據集。數據類型日益繁多,例如視頻、文字、圖片、符號等各種信息,發掘這些形態各不相同的數據流之間的相關性是大數據的最大優點。比如供水係統數據與交通狀況比較可以發現清晨洗浴和早高峰的時間密切相關,電網運行數據和堵車時間地點有相關性,交通事故率關聯睡眠質量。

2.開放公開,容易獲得

采集大數據不是為了存儲而是為了進行分析。大數據不僅存在於特定的政府機構和企業組織,而是社會生活生產過程中自動產生存儲的。電信公司積累客戶的電話溝通記錄,電子商務網站整合消費者的各種信息,企業通過挖掘海量數據可以增強自身能力,改善運營服務,提供決策支持,實現商業智能進而為企業帶來高額經濟效益回報,發現企業發展的特殊規律。今天在一定規則開放性下,依靠應用程序接口技術和爬蟲采集技術,越來越多的商業組織和政府機構開始向社會各界和研究機構提供自身采集儲存的各種海量數據源,尤其是美國政府走在前列,主動提供具有權威的開放數據源data.gov等開源數據。並且國內外大量組織收集微博上的海量信息,分析個人特征和屬性標簽,預測社會輿情、電影票房或者商業機會。開放公開容易獲得的數據源成為大數據時代的基本特征,產生巨大的社會影響。

3.重視社會預測

預測是大數據的本質特征。在大數據時代,預見行業未來的能力成為企業追求的目標。最近美國Netflix公司推出《紙牌屋》,即通過采集其3000萬用戶的播放動作,包括打開、暫停、快進、倒退等動作,分析其注冊用戶的幾百萬次評級與搜索,評價受眾對不同電視電影節目給予的不同觀點,從導演、演員、題材、情節、類型等各個方麵理解公眾欣賞節目的習慣,通過挖掘海量數據,獲得人們的喜好。①該公司細致的采集分析用戶數據改變了視頻行業的製作方式,用計算方法和邏輯分析替代了以前的過時生產方式,通過大數據能先於受眾分析需求,製作節目獲得關注。更有意思的案例是商場居然比父親更早得知未成年女兒的懷孕信息,由於商家依據客戶的購物行為進而通過大數據分析預測到其有很大的懷孕可能性。人們極為關注大數據預知社會問題的應用功能,在社會科學領域大數據將發揮越來越突出的巨大作用。①

4.重視發現而非實證

實證研究強調建立理論假設,設定範圍隨機抽樣,定量調查采集數據,收集相關數據,進而證偽或證實理論假設,連續線性的決策,邏輯嚴密的思維。大數據則重視數據,創造知識,預測前景,探索未知,關注現象,發現機遇。預見未來依靠自下而上的數據收集處理,不依賴理論假設的前提下去發現知識,預知未來,洞察趨勢,找到規律。例如沃爾瑪超市經過大數據技術分析海量交易數據,發現周末如果男人買嬰兒尿布的同時會順便買啤酒的獨特現象。通常數據挖掘不做刻板假設,具有未知性,但結果有效並且實用。還有是重視全體忽略抽樣。大數據是信息技術自動采集存儲的海量數據,可以進行快速分析處理得到結果。隨著存儲設備成本不斷下降,計算機工具效能日趨先進,處理海量數據的能力快速提升,數據挖掘算法持續加速改進,尤其是機器學習的神經網絡建模技術使得抽樣調查不再是唯一的方法。大數據理論上可以把握總體數據,更加重視整體的全部數據。