大數據的特征和相關技術分析與趨勢研究
理論研究
作者:李東興
摘 要 隨著互聯網技術的發展,大數據的分析處理已成為當前信息技術領域研究的熱點之一。分析大數據的特征和本質,並重點介紹大數據分析的相關技術和大數據未來發展需要解決的難題。
關鍵詞 大數據;人工智能;數據倉庫
中圖分類號:TP393 文獻標識碼:A
文章編號:1671-489X(2015)12-0010-03
1 緒論
李克強總理在2014年國務院會議上曾指出:“積極支持雲計算、物聯網與移動互聯網絡的發展,催生基於雲計算的在線研發設計、教育醫療、智能製造等新業態。在疾病防治、災害預防、社會保障、電子政務等領域開展大數據應用示範。”大數據洶湧來襲,同互聯網的出現一樣,絕不僅僅是信息技術領域的革命,還是啟動透明政府、創造無限商機、加快企業創新、引領社會變革的利器[1]。互聯網、SNS和傳感器技術的發展使得每一個網民成為大數據的貢獻者,當然也是大數據的消費者和受益者。隨著人們對數據重視程度的提升和收集數據意識的增強,大數據正在不斷改變人們的工作、生活和思維方式。
2 什麼是大數據
數據指客觀事物的符號表示,包括文字、聲音、圖形圖像等多種表現形式。信息是把數據放置到一定的情境中,對數字的解釋。與信息不同,數據是信息的數字化記錄,是信息的載體,是與語義不可分隔的。大數據(Big Data),
指的是數據規模巨大到無法通過傳統工具,在合理的時間內達到收集、存儲、管理、處理、維護並整理成為服務於企業和社會的更積極的信息[1]。
從大數據的定義可以看出,之所以稱為大數據,其一是數據量大到一定程度。但是,具體多大的數據才能稱之為“大”,業界也沒有統一的標準。當前,數據正在呈指數級增長趨勢,十年之前TB甚至GB級別的數據可能是大數據,現在達到PB級別的數據才能稱為大數據,再過一段時間,也許ZB級別的數據方能稱為大數據。其二是數據價值大。大數據之“大”更多的意義在於人類可以“分析和使用”的數據在大量增加,通過對這些數據本身及它們內在聯係的整合和分析,人類可以發現新的知識,創造新的價值,帶來“大知識”“大智慧”,更好地服務全社會,推動智慧地球朝著更文明的方向發展。
大數據技術是指從各種各樣類型的海量數據中,快速獲得有價值信息的技術。整個過程包括大數據采集、大數據預處理、大數據存儲與管理、大數據分析及挖掘、大數據展現和應用。其中大數據的存儲與管理、大數據的分析與挖掘是整個過程的核心。
3 大數據的特征和本質
與小數據相比,大數據有4V特征,即:Volume、Ve-locity、Variety、Value。
Volume 數據量巨大,表現為存儲量和計算量巨大。目前達到PB級容量的大數據出現在眾多領域,據麥肯錫估計,全球企業2010年硬盤上存儲了超過7 EB的新數據,消費者在PC等設備上存儲的新數據超過了6 EB(相當於美國國會圖書館中存儲數據的4000多倍[1])。我國建成的四大超級計算機中心,不僅存儲容量達到PB級,其浮點計算能力也達到億萬億次每秒。
Velocity 高速,表現為大數據量的增長速度日新月異;大數據的存儲、傳輸、更新、處理等技術發展突飛猛進。據Facebook統計,每秒有4.1萬張照片上傳,2011年以發圖1400億張成為世界上最大的照片庫。
Variety 多樣性,表現為:數據來源增多;數據類型繁多;數據表現形式不斷擴展。從數據來源上看,傳統數據以交易事務型數據為主,而互聯網和物聯網的發展,則帶來了微博、社交網絡、傳感器等多種數據來源;從數據類型上看,傳統數據以結構化數據為主,互聯網數據以半結構化和非結構化數據為主,大數據的數據類型是幾種類型的複雜組合,其中半結構化和非結構化數據占80%左右;從數據的表現形式上看,從傳統的聲音、文字、圖片不斷擴展到網絡日誌、係統日誌、視頻、地圖等形式。
Value 價值,表現為數據價值大和價值密度低。從數據價值上看,小數據的價值適用於小眾群體和對小範圍地區更有實用意義,大數據的價值不僅具有普及性、普遍性和說服力,而且更有個性化,能說明任何實體之間的相關性;從價值密度上看,大數據的價值密度低,假如同種類型的數據的潛在價值是固定的,數據量越大,價值密度必然越小。以機房網絡監控日誌為例,要查看的僅僅是報警和錯誤日誌。