如果要追溯“大數據”這個專業術語最初的出處的話,就必然要提及apache org的開源項目Nutch。在那個時候,大數據的意思是更新網絡搜索索引,同時還需要批量處理和分析大量的數據集。穀歌的Map Reduce和Google File System(GFS)發布了之後,大數據的定義中除了涵蓋大量數據之外,還包括數據處理的速度。
研究機構Gartner曾給大數據(Big data)下過這樣的定義:大數據是一種基於新的處理模式而產生的具有強大的決策力、洞察力以及流程優化能力的多樣性的、海量的且增長率高的信息資產。
大數據一詞源於英文的“Big Data”一詞,以往也有類似的詞語,如“信息爆炸”“海量數據”等等似乎都很難去準確描述這個詞的具體內涵。麥肯錫全球研究所所做的《大數據:創新、競爭和生產力的下一個前沿》(James ,2011)是這麼定義“大數據”的:
大數據通常指的是大小規格超越傳統數據庫軟件工具抓取、存儲、管理和分析能力的數據群。這個定義也有很強的主觀色彩,因為究竟什麼樣規格的數據才是大數據,這沒有統一的標準,也就是無法確定超過多少TB(1000GB)的數據才是大數據。隨著時間的推移和技術的發展,我們必須知道“大數據”的量會越來越大。還有一點,這定義也會因為部門的差異而發生標準的變化,這和通用的是什麼軟件以及特定行業數據集的大小有密切的關係。所以,現有各行業的大數據可以是幾十TB,也可以是幾千TB。
按照EMC的界定,特指的大數據一定是指大型數據集,規模大概在10TB。通過多用戶將多個數據集集合在一起,能構成PB的數據量。
在IBM2011IOD大會上,負責IBM軟件和硬件兩大集團的高級副總裁Steve Mills曾說過:“分析已經成為必要的能力,不再隻是一個工具,是一種能讓業務流程運轉的智慧能力。企業要轉化信息的洞察力為行動,而不是僅僅去爭取競爭的優勢,要將其轉換為生存的根本。”
IBM公司概括大數據時有三個V,也就是大量化(Volume),多樣化(Variety)和快速化(Velocity),此外它們還針對客戶有了“大數據解決方案”的服務。IBM公司對大數據所概括出的三個V,其實也說明大數據潛藏的另一個V——價值(Value)。就這麼說的話,大數據確實具備這四個V的基本特征。
大數據的第一個特征是數據的量大。電腦的數據運算和儲存單位都是字節(byte),1KB(kilobyte)等於1024B,就是千字節。除此之外還有更高的單位MB(Megabyte兆字節),GB(Gigabyte,吉字節),TB(Trillion byte,太字節)、PB(Pet byte,拍字節),EB(Exabyte,艾字節),ZB(Zetta byte,澤它字節)和YB(Yotta byte,堯字節)。每一級之間的換算關係是1024。到了2009年,幾乎每一個美國企業,隻要是雇員人數超過1000人的,它的數據存儲量大概都超過了200TB,這是十年前沃爾瑪公司數據倉庫存儲量的2倍還多。在不少經濟部門當中,企業平均的數據存儲量甚至都達到了1PB。2010年歐洲組織的存儲總量大概為11EB,這個數字幾乎是整個美國數據總量(16EB)的70%。2010年全球企業在硬盤上的數據存儲量已經超過了7EB,而在PC和筆記本電腦等設備上的個人存儲量也超過了6EB。美國國會圖書館當時存儲的數據大概隻是1EB的4000分之一(James,2011)。硬件技術的發展速度遠遠趕不上數據容量的增長速度,為此數據存儲和處理的危機應運而生。巨大數量的數據被處理掉,例如醫療衛生提供商會將它們90%的數據給處理掉(這其中包括幾乎所有在手術過程中產生的實時視頻和圖像資料)。