正文 第一節 大數據到底是什麼?(2 / 2)

隻不過,大數據不單純隻是大。海量數據存儲危機的產生不僅僅是由於數據量爆炸性的增長,還有數據類型的改變帶來的,這就是第二個V,多樣化。此前的數據庫用二維表結構存儲方式就可以儲存數據,譬如常見的Excel軟件中處理的數據,這稱為結構化數據。可是現在隨著互聯網多媒體應用的出現,像是聲音、圖片和視頻等等非結構化的數據所占的比重在日益增多。有統計表明,全世界非結構化數據的增加率是63%,相對而言結構化數據增長率隻有32%。2012年,非結構化數據在整個互聯網數據中的占比已經超過了75%。

Informatica中國區的首席產品顧問但彬就提到過,大數據裏有海量數據的含義,但它又大於海量數據的定義。簡單來說,海量數據加上其他複雜類型的數據就是大數據的概念了。但彬還提到,所有交易和交互數據集都屬於大數據,它的規模和複雜程度早已在依據合理成本和時限進行捕捉、管理和處理數據集的傳統技術的能力之上。

簡而言之,三種主要技術趨勢彙聚成了大數據:其一是海量交易數據,包括半結構化和非結構化信息,在從ERP應用程序到基於數據倉庫應用程序的在線交易處理(OLTP)和分析係統的過程當中總在不斷增長。企業很多的數據和業務流程也在不斷走向公共和個人雲轉移,將造成更為複雜的局麵。其二是海量交互數據。因為Facebook、Twitter、LinkedIn以及其他更多的社交媒體的興起,這一部分數據誕生了海量的交互數據,其中涵蓋了呼叫詳細記錄(CDR)、設備和傳感器信息、GPS和地理定位映射數據,還有利用管理文件傳輸(Manage File Transfer)協議傳送的海量圖像文件、Web文本和點擊流數據、科學信息、電子郵件,等等。其三就是海量數據處理。隨著大數據的湧現,已經有很多用於密集型數據處理的架構應運而生,比如Apache Hadoop,它具有開放源碼以及在商品硬件群中運行的特性。此外還有能以可靠、高效、可伸縮的方式分布式處理大數據的軟件框架Hadoop。它之所以可靠,是因為它能夠提前假定計算元素和存儲失敗,所以它能夠維護多個工作數據副本,用並行處理的方式來加快處理能力和速度。Hadoop也是可伸縮的,PB級的數據它也可以處理。另外,Hadoop因為依賴於社區服務器,所以它的成本很低,不論是誰都可以使用。對企業來說,最難的在於如何通過成本效益的方式從Hadoop中存取數據。Hadoop最知名的用戶是臉譜。通過Hadoop,像臉譜這一類的網站,也就可以自由地處理海量的數據,同時獲得較高的收益。