第二章 掀開大數據的麵紗
在計算機走進千家萬戶後,人們開始進入信息時代。在智能手機、平板電腦幾乎人手一部之後,各種智能設備帶著形形色色的功能不斷地產生大量數據,我們從信息時代逐漸走入大數據時代。大數據時代有著自己鮮明的時代特征,我們在考慮解決一些問題時,隻有從習以為常的小數據時代的思維裏跳出來,才能找到快速便捷的解決之道。
四、大數據閃亮登場
數據激增
2003年,剛進大學的小徐還沒有自己的電腦,他省吃儉用花700元買了一個不知名品牌的MP3播放器,容量為128M。拿到MP3播放器後他非常欣喜,因為這個MP3播放器能存儲大約50首普通壓縮率的MP3歌曲,還能當軟盤用。而他之前一直使用3.5寸的軟盤來存儲數據,一張軟盤的容量僅為1.44M。之前他用來聽歌的設備是一台索尼隨身聽,要聽新歌隻能花錢買磁帶,每盤磁帶大約30元,隻能存儲10首歌,而且沒法自己挑選想要聽的歌。
2013年,小徐已經參加工作多年,他平時使用智能手機聽歌上網,使用平板電腦玩遊戲、購物、看電影,家裏的筆記本電腦已經用得越來越少了。可是,最近他想買一個移動硬盤來存儲高清電影,他在網上瀏覽很久,最後花700元買了一個2T的移動硬盤。這個2T的移動硬盤大約能存儲1000部高清電影,如果用來存儲普通壓縮率的MP3歌曲,大約能存儲80萬首。
不考慮貨幣購買力變化及產品功能等問題,隻考慮數據容量,同樣是700元,2013年購買到的容量是2003年的16000倍。可是,小徐還是覺得容量不夠用,這10年裏到底是哪裏出了問題呢?
答案是,大數據。
大數據時代已經悄然來臨。不僅是小徐,幾乎所有的個人、企業、政府都已經覺得原來購買的存儲設備容量不夠用。隨著社交網絡的逐漸成熟,移動帶寬迅速提升,雲計算、物聯網應用更加豐富。更多的傳感設備、移動終端接入網絡,由此產生的數據及數據增長速度迅速攀升。
一項調查發現,九成企業的數據量在迅速上漲,其中16%企業的數據量每年增長一半甚至更多。調研機構IDC在2011年6月的報告顯示,全球數據量在2011年已達到1.8ZB,在過去5年裏增加了5倍。1.8ZB是什麼樣的概念呢?如果把所有這些數據都刻錄存入普通DVD光盤裏,光盤的高度將等同於從地球到月球的一個半來回也就是大約72萬英裏。相當於每位美國人每分鍾寫3條推特微博,而且還要不停地寫2.6976萬年,是不是很恐怖?這還不是最恐怖的,IDC預測全球數據量大約每兩年翻一番,2015年全球數據量將達到近8ZB,到2020年,全球將達到35ZB。
所謂大數據最直白的理解是海量數據,通常用來形容一個公司創造的大量非結構化和半結構化數據。
北京時間2012年3月29日,美國政府宣布“大數據研究和發展倡議”來推進從大量的、複雜的數據集合中獲取知識和洞見的能力。該倡議涉及聯邦政府的6個部門。這些部門承諾投資總共超過2億美元來大力推動和改善與大數據相關的收集、組織和分析工具及技術。此外,這份倡議中還透露了多項正在進行中的聯邦政府各部門的大數據計劃。
其實,最早提出大數據時代已經到來的機構是全球知名谘詢公司麥肯錫。麥肯錫在研究報告中指出,數據已經滲透到每一個行業和業務職能領域,逐漸成為重要的生產因素;而人們對於海量數據的運用將預示著新一波生產率增長和消費者盈餘浪潮的到來。
麥肯錫的報告發布後,大數據迅速成為計算機行業爭相傳誦的熱門概念,也引起了金融界的高度關注。隨著互聯網技術的不斷發展,數據本身是資產,這一點在業界已經形成共識。如果說雲計算為數據資產提供了保管、訪問的場所和渠道,那麼如何盤活數據資產使其為國家治理、企業決策乃至個人生活服務,則是大數據的核心議題,也是雲計算內在的靈魂和必然的升級方向。
事實上,全球互聯網巨頭都已意識到大數據時代數據的重要意義。包括EMC、惠普、IBM、微軟在內的全球IT巨頭紛紛通過收購大數據相關廠商來實現技術整合,這足以看出它們對大數據的重視。
數據大小怎麼算
說起阿基米得,大家肯定不陌生。他是古希臘偉大的哲學家、數學家、物理學家,其留傳於世的數學著作有10餘部。傳說他曾經與某位國王一起下棋。國王覺得隻是單純下棋太沒意思,不夠刺激,於是想賭點什麼,阿基米得也同意了。阿基米得提議的賭法是:如果阿基米得下棋輸了,就給國王當一輩子長工;如果國王輸了,就得在下棋的64個格子裏放上米粒。米粒的放法是:第一個格子1粒,第二個格子2粒,第三個格子4粒,第四個格子8粒……每往後一個格子,米粒就增加一倍。國王心想,這賭注太值得了,贏了可以讓阿基米得當一輩子長工,輸了也就輸那麼一點兒米粒,於是很爽快地答應了。國王害怕阿基米得反悔,專門找來了紙張和筆,和阿基米得正式地簽下了對賭協議。
一盤下來,阿基米得勝出。國王願賭服輸,大手一揮,吩咐手下去準備米粒。手下的人趕緊拿來一個米袋,開始給阿基米得數米粒。很快,一袋子米空了。手下又拿來幾袋子,這次空得更快。國王沉不住氣了,他完全沒想到這小小的棋盤計算出來的數字竟然這麼大。阿基米得微笑著看著一切,似乎一切都在預料之中。國王找來一個精通數學的大臣,讓他計算一下還差多少。大臣一聽說這個賭法,臉都嚇白了。
這個故事最後是怎麼收場的,我們無從知曉,不過國王肯定是支付不了那麼多米的。我們不妨粗略估計一下國王到底要給阿基米得多少米。棋盤一共有64個格子,所以阿基米得一共會獲得1+2+4+8+16+…+263粒米粒,合計(264-1)粒。210=1024,為了便於估算,這裏僅僅算作1000。264可以看作是(210)6*24=1.6×1019。假如我們把中國人口算作16億人,阿基米得得到的米粒足夠給每個中國人發1010粒。一粒米大約0.02克,所以每個人大約可以獲得2萬千克也就是4萬斤米。夠震驚吧?要知道,這裏的數字還是往小了估算的。
這個數字在那個年代是絕對的大數字。而這樣的數字,在大數據時代,可以說是司空見慣的了。大家可能接觸比較多的是各類電子文檔和影音資料,比如一個10萬字的txt文檔大約200K,一首未經過壓縮的APE格式歌曲大約30M,一張CD的容量大約為700M,一張普通DVD的容量大約為4.3G……關於KB、M、G這些表示文件大小的單位,我們一般比較熟悉。可是,你聽說過T、P、E、Z、Y、D、N等單位嗎?
這些單位我們不常遇到,但是在大數據裏常常遇到。大數據又叫海量數據,光從名字看就知道數據的規模之大了。現在,個人、企業、政府手中的數據都處於井噴期,不斷地大量爆發著。由於這些數據量是如此之大,已經不是以我們所熟知的多少G(1G=1000兆,即2的30次方字節)和T(即1000 G)為單位來衡量,而是以P(1000 T)、E(100萬 T)或Z(10億T)為計量單位的。
那麼,這些單位都是什麼關係呢?它們之間如何換算呢?
在十進製的世界裏,人們用以記錄數字大小的數字符號有10個,分別是從0到9,數數的方式是0、1、2、3、4、5、6、7、8、9、10……而在計算機裏,使用的是二進製,記錄數字大小的符號隻有0和1,數數的方式是0、1、10、11、100、101、110、111、1000……二進製數係統中,每個0或1就是一個位(bit),8 bit為1 Byte,稱為1字節。字節是計算機文件大小的基本計算單位。一個英文字母占用一個字節,一個漢字占用兩個字節。
按照從小到大的順序,單位分別為:bit(比特)、Byte(字節)、KB(千字節)、MB(兆字節)、GB、TB、PB、EB、ZB、YB、DB、NB。從KB到NB,人們習慣省略後麵的“B”而直接用“多少K”或“多少N”這樣的說法。
它們按照進率1024(2的十次方)來計算:
1Byte = 8 bit
1 KB = 1024 Bytes
1 MB = 1024 KB = 1048576 Bytes
1 GB = 1024 MB = 1048576 KB = 1073741824 Bytes
1 TB = 1024 GB = 1048576 MB = 1073741824 KB = 1099511627776 Bytes
1 PB = 1024 TB = 1048576 GB =1125899906842624 Bytes
1 EB = 1024 PB = 1048576 TB = 1152921504606846976 Bytes
1 ZB = 1024 EB = 1180591620717411303424 Bytes
1 YB = 1024 ZB = 1208925819614629174706176 Bytes
1 DB = 1024 YB = 1237940039285380274899124224 Bytes
1 NB = 1024 DB = 1267650600228229401496703205376 Bytes
越到後麵的單位看上去越像天文數字,我們似乎沒有辦法感覺到它們到底有多大。百度公司對此給出了更形象的描述:百度新首頁導航每天就要從超過1.5PB的數據中進行挖掘,這些數據如果打印出來將超過5000億張A4紙。這些紙全部摞起來超過4萬千米高,接近地球同步衛星軌道,平鋪可以鋪滿海南島。而2020年新增的數字信息成長幅度將是2009年的近45倍。如今,隻需兩天就能創造出自文明誕生以來到2003年所產生的數據總量。
1.5PB的數據已經是這麼大了,後麵的EB、ZB、YB、DB、NB就真是大得不可想象了。再回頭看看阿基米得的米粒,是不是也不算大了呢?
大數據是什麼
2010年1月12日16時53分,加勒比島國海地發生裏氏7.0級大地震,首都太子港及全國大部分地區受災情況嚴重。截止到地震發生後15天,世界衛生組織確認,此次海地地震已造成22.25萬人死亡,19.6萬人受傷。此次地震中遇難者有聯合國駐海地維和部隊人員,其中包括8名中國維和人員。地震發生後,國際社會紛紛伸出援手,表示將向海地提供人道主義援助。
地震發生後,海地人散落在全國各地,而當地的通信本身就很落後,從世界各地趕來的援助機構到達後,一直都搞不清楚到底該向哪裏提供援助。他們隻能以傳統的方式,通過飛臨災區上空或趕赴災區現場來查找需要援助的人群。就在這時候,一家獨立的信息分析平台通過廣播公布了手機短信緊急求助號碼,結果收到數千條有關被困人員的信息。散居在美國各地的大量海地裔美國人翻譯了這些信息,並把它們標注在“危機地圖”上。這個數據分析平台的誌願者們通過互聯網向海地的美國海岸警衛隊發送即時消息,告訴他們搜尋地點,最終成功營救了不少當地居民。
這是大數據一次非常精彩的亮相。這家獨立的信息分析平台是來自東非肯尼亞的一個開源數據分析平台——Ushahidi,它們一直收集和追蹤有關暴亂、難民、強奸、死亡等事件的短信報告工作,並按照報告者提供的位置在地圖上標明這些事件,並從中分析事件頻發的位置,並進行預測和加強管製。和新聞報道和災害應對小組相比,這個數據分析平台可以在更短的時間內收集到更多的證據,這些證據的基礎便是來源於對數據分析而進行準確的地理定位,通過在實時變化的地圖信息來實施營救計劃,在災害麵前,隻有數據是最為冷靜和理性的。
我們說了那麼多大數據,那麼,到底什麼是大數據?
維基百科上,所謂“大數據”指的是:“網絡公司日常運營所生成和積累用戶網絡行為數據增長如此之快,以至於難以使用現有的數據庫管理工具來駕馭,困難存在於數據的獲取、存儲、搜索、共享、分析和可視化等方麵。”
“大數據”作為時下工廠行業最火熱的詞彙,隨之而來的數據倉庫、數據安全、數據分析、數據挖掘等圍繞大數據的商業價值的利用逐漸成為行業人士爭相追捧的利潤焦點。
早在1980年,著名未來學家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數據熱情地讚頌為“第三次浪潮的華彩樂章”。不過,大約從2009年開始,“大數據”才成為互聯網信息技術行業的流行詞彙。美國互聯網數據中心指出,互聯網上的數據每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數據是最近幾年才產生的。此外,數據又並非單純指人們在互聯網上發布的信息,全世界的工業設備、汽車、電表上有著無數的數碼傳感器,隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質的變化,也產生了海量的數據信息。
大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那麼這種產業實現贏利的關鍵,在於提高對數據的“加工能力”,通過“加工”實現數據的“增值”。中國物聯網校企聯盟認為,物聯網的發展離不開大數據,依靠大數據可以提供足夠有利的資源。
隨著雲時代的來臨,大數據也吸引了越來越多的關注。大數據通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關係型數據庫用於分析時會花費過多的時間和金錢。大數據分析常和雲計算聯係到一起。
“大數據”這個術語最早期的應用可追溯到apache org的開源項目Nutch。當時,大數據用來描述為更新網絡搜索索引需要同時進行批量處理或分析的大量數據集。現如今,大數據不再僅用來描述大量數據,還涵蓋了處理數據的速度。
從某種程度上說,大數據是數據分析的前沿技術。簡言之,從各種各樣類型的數據中快速獲得有價值信息的能力,就是大數據技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業的潛力。
大數據可分成大數據技術、大數據工程、大數據科學和大數據應用等領域,目前人們談論最多的是大數據技術和大數據應用,工程和科學問題尚未被重視。大數據工程指大數據的規劃建設運營管理的係統工程;大數據科學關注大數據網絡發展和運營過程中發現和驗證大數據的規律及其與自然和社會活動之間的關係。
五、大數據的新思維
免費的才是最貴的
據說,在非常遙遠的古代,人們都是不穿鞋子的。有一次,一個國王到外麵考察民情,走了一天的路後腳疼得難受。因為路上的石子實在太多了,硌得腳很疼。國王心想:“我隻是走了一天的路就這麼難受,可憐我的子民們每天都要走這樣的路啊。我得想個辦法。”他邊摸著自己的牛皮座椅邊思考著,突然受到啟發:“牛皮足夠堅硬和平整,又不尖銳,還耐磨,如果把所有的公路鋪滿牛皮,人們走起來不就不會硌腳了嗎?”於是,他下令把全國所有的公路都鋪上牛皮。他認為這樣一來,全國的百姓都可以不被石子硌腳了。這時,一個聰明的大臣看不下去了,心想:全國這麼多大大小小的路,這得多少牛皮啊?於是向國王提醒道:臣民們隻要把自己的腳包上牛皮就可以了,不需要那麼多牛皮的。國王一下子醒悟過來,趕緊更改了命令。
據說,這就是皮鞋發明的緣由。同樣是為了不硌腳,國王的方法成本大得不可思議,而大臣隻換了一下思維角度就得出了更好的辦法。這就是經濟學的辦法。經濟學要講成本計算,而人類行為的規律揭示:每個人為自己的腳負責,是最經濟的辦法。不僅腳,其他事務也是如此。再說,如果是國王用全國人的錢為全國道路鋪上牛皮,有多少人會珍惜這條牛皮公路呢?因為反正是免費的,誰會在乎?但如果是自己買皮鞋,他們就不會隨意糟蹋腳上的牛皮了。
這是很簡單的道理,但在生活中人們常常不知道這一點。很多時候,我們陷入了“牛皮公路”的錯誤思維而不自覺,扮演著那個自以為得計的國王。
2013年,國外著名的社交網站Facebook預計將實現60億美元的收益,而創造這麼多收益的Facebook居然沒有向用戶收取一分錢。Facebook的所有服務對用戶都完全免費,如果你是Facebook的用戶,你會不會覺得你使用Facebook的服務簡直是在占這個網站的便宜呢?
如果你這麼覺得,你就已經陷入“牛皮公路”的思維了。Facebook不是慈善機構,它的管理者不是國王,他們的網站不是供所有人免費使用的牛皮公路。事實上,正如2010年《時代》周刊評選出的100位最具影響力的人之一的思想家傑倫·拉尼爾所說:“Facebook的用戶今年將為這家公司創造60億美元的收入,卻得不到一分錢的報酬。”
為什麼這麼說呢?這又是一個大數據的案例了。很多人暗暗覺得,Facebook不是一個慈善機構,它應該有自己的贏利方式,隻是自己不知道它是如何贏利的罷了。這是非常正確的思維方式,事實也確實如此。Facebook的價值正是數以億計的用戶在使用過程中不知不覺積累的大數據形成的。通過分析用戶的喜好、身份資料、個人信息和瀏覽習慣,Facebook就能夠猜測到每個用戶的喜好,比如,你最容易被哪類廣告吸引,每個網站頁麵都有一個“喜好”按鈕,哪怕你從來不摁,你的信息也會被反饋給Facebook。
在大數據時代,數據就是金礦,而創造數據的用戶便是產生金礦的原材料。Facebook的主要產品是社交網絡,而造就一個良好的社交網絡的最重要因素是它的內容。為Facebook提供內容的,正是一個個用戶。用戶提供的內容使網站變得美好,而他們的個人信息使得網站變得有價值。
這一切都解釋了為什麼像Facebook這麼一家雇員少於5000人的公司,如今市值超過650億美元。在思想家拉尼爾看來,這是一種巨大的不公平,也是大數據時代的一個巨大缺陷。像Facebook一樣的公司,通過收集我們的各種行為數據獲得巨大利潤,而我們的行為本身卻被視為是毫無價值的,似乎他們無須為我們的勞動付出任何報酬。這麼看來,在大數據時代,表麵上我們是在免費使用著某些公司的各種資源,而實際上是我們付出各種勞動,某些公司免費搜集著我們產生的數據,沒有給我們任何報酬。這麼一說,阿裏巴巴創始人馬雲曾說“免費的才是最貴的”確有一定的道理。
那麼,怎樣才是合理的呢?讓我們從小數據時代獲得一些啟示吧。比如,我們走在街頭上,一個陌生人走過來請求我們幫助完成一項問卷調查。這種事情是常有的,當然,我們可以選擇不合作。不過,很多時候我們都會幫忙完成。作為答謝,對方一般會準備一點兒小禮物,一支筆、一個小本子之類的。這算不上什麼報酬,隻能說是調查者對占用了被調查者的時間表示歉意的一種表達。那些如同Facebook一樣的公司應該學會這種傳統。首先,他們采集我們的數據,應該像在街頭找我們做問卷調查一樣征求我們的同意,而我們可以選擇不同意。在我們表示同意他們收集數據後,他們應該認識到,他們應該禮節性地表示點什麼。不然,這看似免費的服務才真正是最貴的。
一切皆可數據化
阿基米得曾經說:“給我一個支點,我就能撬動地球。”從某種意義上我們也可以說:“給我一組數據,我就能複製地球。”為什麼這麼說呢?數據到底能告訴我們多少信息呢?
在回答這個問題之前,我們不妨這麼假設一下:現在我們正在野外的一塊空地上挖掘,突然我們挖出了一個不明物體,這是一個規則的長方體。我們手上唯一的工具是尺子,現在我們量出了它的長、寬、高,也就能夠在紙上畫出這個長方體並算出它的體積。接著,我們發現這個長方體實際上是一個實心的大金塊,那麼根據黃金的密度我們可以算出它的質量,並根據當前黃金的價格給其估價;如果我們發現這塊金塊是貴重的文物,卻不知道具體是什麼時候的,我們可以把它帶到實驗室對它做C14鑒定,了解它具體製造於哪一年,進而推測是誰製造的,這中間又發生了哪些故事……