《1984》reference_book_ids\":[6995491805928098830]}],\"145\":[{\"annotation_type\":\"0pos_info_v2\":{\"end_container_index\":145,\"end_element_index\":0,\"end_element_offset\":6,\"start_container_index\":145,\"start_element_index\":0,\"start_element_offset\":0},\"quote_content\":\"《1984》reference_book_ids\":[6995491805928098830]},{\"annotation_type\":\"0pos_info_v2\":{\"end_container_index\":145,\"end_element_index\":0,\"end_element_offset\":248,\"start_container_index\":145,\"start_element_index\":0,\"start_element_offset\":242},\"quote_content\":\"《1984》reference_book_ids\":[6995491805928098830]},{\"annotation_type\":\"0pos_info_v2\":{\"end_container_index\":145,\"end_element_index\":0,\"end_element_offset\":6,\"start_container_index\":145,\"start_element_index\":0,\"start_element_offset\":0},\"quote_content\":\"《1984》reference_book_ids\":[6995491805928098830]},{\"annotation_type\":\"0pos_info_v2\":{\"end_container_index\":145,\"end_element_index\":0,\"end_element_offset\":248,\"start_container_index\":145,\"start_element_index\":0,\"start_element_offset\":242},\"quote_content\":\"《1984》reference_book_ids\":[6995491805928098830]},{\"annotation_type\":\"0pos_info_v2\":{\"end_container_index\":145,\"end_element_index\":0,\"end_element_offset\":99,\"start_container_index\":145,\"start_element_index\":0,\"start_element_offset\":95},\"quote_content\":\"《我們》reference_book_ids\":[6915002082298694669,6813304427160538120]},{\"annotation_type\":\"0pos_info_v2\":{\"end_container_index\":145,\"end_element_index\":0,\"end_element_offset\":83,\"start_container_index\":145,\"start_element_index\":0,\"start_element_offset\":76},\"quote_content\":\"《美麗新世界》reference_book_ids\":[7244177547934567484,7109046350297222181]}],\"146\":[{\"annotation_type\":\"0pos_info_v2\":{\"end_container_index\":146,\"end_element_index\":0,\"end_element_offset\":6,\"start_container_index\":146,\"start_element_index\":0,\"start_element_offset\":0},\"quote_content\":\"《1984》reference_book_ids\":[6995491805928098830]}],\"148\":[{\"annotation_type\":\"0pos_info_v2\":{\"end_container_index\":148,\"end_element_index\":0,\"end_element_offset\":44,\"start_container_index\":148,\"start_element_index\":0,\"start_element_offset\":38},\"quote_content\":\"《1984》reference_book_ids\":[6995491805928098830]},{\"annotation_type\":\"0pos_info_v2\":{\"end_container_index\":148,\"end_element_index\":0,\"end_element_offset\":74,\"start_container_index\":148,\"start_element_index\":0,\"start_element_offset\":68},\"quote_content\":\"《1984》reference_book_ids\":[6995491805928098830]},{\"annotation_type\":\"0pos_info_v2\":{\"end_container_index\":148,\"end_element_index\":0,\"end_element_offset\":44,\"start_container_index\":148,\"start_element_index\":0,\"start_element_offset\":38},\"quote_content\":\"《1984》reference_book_ids\":[6995491805928098830]},{\"annotation_type\":\"0pos_info_v2\":{\"end_container_index\":148,\"end_element_index\":0,\"end_element_offset\":74,\"start_container_index\":148,\"start_element_index\":0,\"start_element_offset\":68},\"quote_content\":\"《1984》reference_book_ids\":[6995491805928098830]}]},\"author_speak\":\"code\":0,\"compress_status\":1,\"content\":\" 在計算機走進千家萬戶後,人們開始進入信息時代。在智能手機、平板電腦幾乎人手一部之後,各種智能設備帶著形形色色的功能不斷地產生大量數據,我們從信息時代逐漸走入大數據時代。大數據時代有著自己鮮明的時代特征,我們在考慮解決一些問題時,隻有從習以為常的小數據時代的思維裏跳出來,才能找到快速便捷的解決之道。
四、大數據閃亮登場
數據激增
2003年,剛進大學的小徐還沒有自己的電腦,他省吃儉用花700元買了一個不知名品牌的MP3播放器,容量為128M。拿到MP3播放器後他非常欣喜,因為這個MP3播放器能存儲大約50首普通壓縮率的MP3歌曲,還能當軟盤用。而他之前一直使用3.5寸的軟盤來存儲數據,一張軟盤的容量僅為1.44M。之前他用來聽歌的設備是一台索尼隨身聽,要聽新歌隻能花錢買磁帶,每盤磁帶大約30元,隻能存儲10首歌,而且沒法自己挑選想要聽的歌。
2013年,小徐已經參加工作多年,他平時使用智能手機聽歌上網,使用平板電腦玩遊戲、購物、看電影,家裏的筆記本電腦已經用得越來越少了。可是,最近他想買一個移動硬盤來存儲高清電影,他在網上瀏覽很久,最後花700元買了一個2T的移動硬盤。這個2T的移動硬盤大約能存儲1000部高清電影,如果用來存儲普通壓縮率的MP3歌曲,大約能存儲80萬首。
不考慮貨幣購買力變化及產品功能等問題,隻考慮數據容量,同樣是700元,2013年購買到的容量是2003年的16000倍。可是,小徐還是覺得容量不夠用,這10年裏到底是哪裏出了問題呢?
答案是,大數據。
大數據時代已經悄然來臨。不僅是小徐,幾乎所有的個人、企業、政府都已經覺得原來購買的存儲設備容量不夠用。隨著社交網絡的逐漸成熟,移動帶寬迅速提升,雲計算、物聯網應用更加豐富。更多的傳感設備、移動終端接入網絡,由此產生的數據及數據增長速度迅速攀升。
一項調查發現,九成企業的數據量在迅速上漲,其中16%企業的數據量每年增長一半甚至更多。調研機構IDC在2011年6月的報告顯示,全球數據量在2011年已達到1.8ZB,在過去5年裏增加了5倍。1.8ZB是什麼樣的概念呢?如果把所有這些數據都刻錄存入普通DVD光盤裏,光盤的高度將等同於從地球到月球的一個半來回也就是大約72萬英裏。相當於每位美國人每分鍾寫3條推特微博,而且還要不停地寫2.6976萬年,是不是很恐怖?這還不是最恐怖的,IDC預測全球數據量大約每兩年翻一番,2015年全球數據量將達到近8ZB,到2020年,全球將達到35ZB。
所謂大數據最直白的理解是海量數據,通常用來形容一個公司創造的大量非結構化和半結構化數據。
北京時間2012年3月29日,美國政府宣布“大數據研究和發展倡議”來推進從大量的、複雜的數據集合中獲取知識和洞見的能力。該倡議涉及聯邦政府的6個部門。這些部門承諾投資總共超過2億美元來大力推動和改善與大數據相關的收集、組織和分析工具及技術。此外,這份倡議中還透露了多項正在進行中的聯邦政府各部門的大數據計劃。
其實,最早提出大數據時代已經到來的機構是全球知名谘詢公司麥肯錫。麥肯錫在研究報告中指出,數據已經滲透到每一個行業和業務職能領域,逐漸成為重要的生產因素;而人們對於海量數據的運用將預示著新一波生產率增長和消費者盈餘浪潮的到來。
麥肯錫的報告發布後,大數據迅速成為計算機行業爭相傳誦的熱門概念,也引起了金融界的高度關注。隨著互聯網技術的不斷發展,數據本身是資產,這一點在業界已經形成共識。如果說雲計算為數據資產提供了保管、訪問的場所和渠道,那麼如何盤活數據資產使其為國家治理、企業決策乃至個人生活服務,則是大數據的核心議題,也是雲計算內在的靈魂和必然的升級方向。
事實上,全球互聯網巨頭都已意識到大數據時代數據的重要意義。包括EMC、惠普、IBM、微軟在內的全球IT巨頭紛紛通過收購大數據相關廠商來實現技術整合,這足以看出它們對大數據的重視。
數據大小怎麼算
說起阿基米得,大家肯定不陌生。他是古希臘偉大的哲學家、數學家、物理學家,其留傳於世的數學著作有10餘部。傳說他曾經與某位國王一起下棋。國王覺得隻是單純下棋太沒意思,不夠刺激,於是想賭點什麼,阿基米得也同意了。阿基米得提議的賭法是:如果阿基米得下棋輸了,就給國王當一輩子長工;如果國王輸了,就得在下棋的64個格子裏放上米粒。米粒的放法是:第一個格子1粒,第二個格子2粒,第三個格子4粒,第四個格子8粒……每往後一個格子,米粒就增加一倍。國王心想,這賭注太值得了,贏了可以讓阿基米得當一輩子長工,輸了也就輸那麼一點兒米粒,於是很爽快地答應了。國王害怕阿基米得反悔,專門找來了紙張和筆,和阿基米得正式地簽下了對賭協議。
一盤下來,阿基米得勝出。國王願賭服輸,大手一揮,吩咐手下去準備米粒。手下的人趕緊拿來一個米袋,開始給阿基米得數米粒。很快,一袋子米空了。手下又拿來幾袋子,這次空得更快。國王沉不住氣了,他完全沒想到這小小的棋盤計算出來的數字竟然這麼大。阿基米得微笑著看著一切,似乎一切都在預料之中。國王找來一個精通數學的大臣,讓他計算一下還差多少。大臣一聽說這個賭法,臉都嚇白了。
這個故事最後是怎麼收場的,我們無從知曉,不過國王肯定是支付不了那麼多米的。我們不妨粗略估計一下國王到底要給阿基米得多少米。棋盤一共有64個格子,所以阿基米得一共會獲得1+2+4+8+16+…+263粒米粒,合計(264-1)粒。210\\u003d1024,為了便於估算,這裏僅僅算作1000。264可以看作是(210)6*24\\u003d1.6×1019。假如我們把中國人口算作16億人,阿基米得得到的米粒足夠給每個中國人發1010粒。一粒米大約0.02克,所以每個人大約可以獲得2萬千克也就是4萬斤米。夠震驚吧?要知道,這裏的數字還是往小了估算的。
這個數字在那個年代是絕對的大數字。而這樣的數字,在大數據時代,可以說是司空見慣的了。大家可能接觸比較多的是各類電子文檔和影音資料,比如一個10萬字的txt文檔大約200K,一首未經過壓縮的APE格式歌曲大約30M,一張CD的容量大約為700M,一張普通DVD的容量大約為4.3G……關於KB、M、G這些表示文件大小的單位,我們一般比較熟悉。可是,你聽說過T、P、E、Z、Y、D、N等單位嗎?
這些單位我們不常遇到,但是在大數據裏常常遇到。大數據又叫海量數據,光從名字看就知道數據的規模之大了。現在,個人、企業、政府手中的數據都處於井噴期,不斷地大量爆發著。由於這些數據量是如此之大,已經不是以我們所熟知的多少G(1G\\u003d1000兆,即2的30次方字節)和T(即1000 G)為單位來衡量,而是以P(1000 T)、E(100萬 T)或Z(10億T)為計量單位的。
那麼,這些單位都是什麼關係呢?它們之間如何換算呢?
在十進製的世界裏,人們用以記錄數字大小的數字符號有10個,分別是從0到9,數數的方式是0、1、2、3、4、5、6、7、8、9、10……而在計算機裏,使用的是二進製,記錄數字大小的符號隻有0和1,數數的方式是0、1、10、11、100、101、110、111、1000……二進製數係統中,每個0或1就是一個位(bit),8 bit為1 Byte,稱為1字節。字節是計算機文件大小的基本計算單位。一個英文字母占用一個字節,一個漢字占用兩個字節。
按照從小到大的順序,單位分別為:bit(比特)、Byte(字節)、KB(千字節)、MB(兆字節)、GB、TB、PB、EB、ZB、YB、DB、NB。從KB到NB,人們習慣省略後麵的“B”而直接用“多少K”或“多少N”這樣的說法。
它們按照進率1024(2的十次方)來計算:
1Byte \\u003d 8 bit
1 KB \\u003d 1024 Bytes
1 MB \\u003d 1024 KB \\u003d 1048576 Bytes
1 GB \\u003d 1024 MB \\u003d 1048576 KB \\u003d 1073741824 Bytes
1 TB \\u003d 1024 GB \\u003d 1048576 MB \\u003d 1073741824 KB \\u003d 1099511627776 Bytes
1 PB \\u003d 1024 TB \\u003d 1048576 GB \\u003d1125899906842624 Bytes
1 EB \\u003d 1024 PB \\u003d 1048576 TB \\u003d 1152921504606846976 Bytes
1 ZB \\u003d 1024 EB \\u003d 1180591620717411303424 Bytes
1 YB \\u003d 1024 ZB \\u003d 1208925819614629174706176 Bytes
1 DB \\u003d 1024 YB \\u003d 1237940039285380274899124224 Bytes
1 NB \\u003d 1024 DB \\u003d 1267650600228229401496703205376 Bytes
越到後麵的單位看上去越像天文數字,我們似乎沒有辦法感覺到它們到底有多大。百度公司對此給出了更形象的描述:百度新首頁導航每天就要從超過1.5PB的數據中進行挖掘,這些數據如果打印出來將超過5000億張A4紙。這些紙全部摞起來超過4萬千米高,接近地球同步衛星軌道,平鋪可以鋪滿海南島。而2020年新增的數字信息成長幅度將是2009年的近45倍。如今,隻需兩天就能創造出自文明誕生以來到2003年所產生的數據總量。
1.5PB的數據已經是這麼大了,後麵的EB、ZB、YB、DB、NB就真是大得不可想象了。再回頭看看阿基米得的米粒,是不是也不算大了呢?
大數據是什麼
2010年1月12日16時53分,加勒比島國海地發生裏氏7.0級大地震,首都太子港及全國大部分地區受災情況嚴重。截止到地震發生後15天,世界衛生組織確認,此次海地地震已造成22.25萬人死亡,19.6萬人受傷。此次地震中遇難者有聯合國駐海地維和部隊人員,其中包括8名中國維和人員。地震發生後,國際社會紛紛伸出援手,表示將向海地提供人道主義援助。
地震發生後,海地人散落在全國各地,而當地的通信本身就很落後,從世界各地趕來的援助機構到達後,一直都搞不清楚到底該向哪裏提供援助。他們隻能以傳統的方式,通過飛臨災區上空或趕赴災區現場來查找需要援助的人群。就在這時候,一家獨立的信息分析平台通過廣播公布了手機短信緊急求助號碼,結果收到數千條有關被困人員的信息。散居在美國各地的大量海地裔美國人翻譯了這些信息,並把它們標注在“危機地圖”上。這個數據分析平台的誌願者們通過互聯網向海地的美國海岸警衛隊發送即時消息,告訴他們搜尋地點,最終成功營救了不少當地居民。
這是大數據一次非常精彩的亮相。這家獨立的信息分析平台是來自東非肯尼亞的一個開源數據分析平台——Ushahidi,它們一直收集和追蹤有關暴亂、難民、強奸、死亡等事件的短信報告工作,並按照報告者提供的位置在地圖上標明這些事件,並從中分析事件頻發的位置,並進行預測和加強管製。和新聞報道和災害應對小組相比,這個數據分析平台可以在更短的時間內收集到更多的證據,這些證據的基礎便是來源於對數據分析而進行準確的地理定位,通過在實時變化的地圖信息來實施營救計劃,在災害麵前,隻有數據是最為冷靜和理性的。
我們說了那麼多大數據,那麼,到底什麼是大數據?
維基百科上,所謂“大數據”指的是:“網絡公司日常運營所生成和積累用戶網絡行為數據增長如此之快,以至於難以使用現有的數據庫管理工具來駕馭,困難存在於數據的獲取、存儲、搜索、共享、分析和可視化等方麵。”
“大數據”作為時下工廠行業最火熱的詞彙,隨之而來的數據倉庫、數據安全、數據分析、數據挖掘等圍繞大數據的商業價值的利用逐漸成為行業人士爭相追捧的利潤焦點。
早在1980年,著名未來學家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數據熱情地讚頌為“第三次浪潮的華彩樂章”。不過,大約從2009年開始,“大數據”才成為互聯網信息技術行業的流行詞彙。美國互聯網數據中心指出,互聯網上的數據每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數據是最近幾年才產生的。此外,數據又並非單純指人們在互聯網上發布的信息,全世界的工業設備、汽車、電表上有著無數的數碼傳感器,隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質的變化,也產生了海量的數據信息。
大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那麼這種產業實現贏利的關鍵,在於提高對數據的“加工能力”,通過“加工”實現數據的“增值”。中國物聯網校企聯盟認為,物聯網的發展離不開大數據,依靠大數據可以提供足夠有利的資源。
隨著雲時代的來臨,大數據也吸引了越來越多的關注。大數據通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關係型數據庫用於分析時會花費過多的時間和金錢。大數據分析常和雲計算聯係到一起。
“大數據”這個術語最早期的應用可追溯到apache org的開源項目Nutch。當時,大數據用來描述為更新網絡搜索索引需要同時進行批量處理或分析的大量數據集。現如今,大數據不再僅用來描述大量數據,還涵蓋了處理數據的速度。
從某種程度上說,大數據是數據分析的前沿技術。簡言之,從各種各樣類型的數據中快速獲得有價值信息的能力,就是大數據技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業的潛力。
大數據可分成大數據技術、大數據工程、大數據科學和大數據應用等領域,目前人們談論最多的是大數據技術和大數據應用,工程和科學問題尚未被重視。大數據工程指大數據的規劃建設運營管理的係統工程;大數據科學關注大數據網絡發展和運營過程中發現和驗證大數據的規律及其與自然和社會活動之間的關係。