五、大數據的新思維

免費的才是最貴的

據說,在非常遙遠的古代,人們都是不穿鞋子的。有一次,一個國王到外麵考察民情,走了一天的路後腳疼得難受。因為路上的石子實在太多了,硌得腳很疼。國王心想:“我隻是走了一天的路就這麼難受,可憐我的子民們每天都要走這樣的路啊。我得想個辦法。”他邊摸著自己的牛皮座椅邊思考著,突然受到啟發:“牛皮足夠堅硬和平整,又不尖銳,還耐磨,如果把所有的公路鋪滿牛皮,人們走起來不就不會硌腳了嗎?”於是,他下令把全國所有的公路都鋪上牛皮。他認為這樣一來,全國的百姓都可以不被石子硌腳了。這時,一個聰明的大臣看不下去了,心想:全國這麼多大大小小的路,這得多少牛皮啊?於是向國王提醒道:臣民們隻要把自己的腳包上牛皮就可以了,不需要那麼多牛皮的。國王一下子醒悟過來,趕緊更改了命令。

據說,這就是皮鞋發明的緣由。同樣是為了不硌腳,國王的方法成本大得不可思議,而大臣隻換了一下思維角度就得出了更好的辦法。這就是經濟學的辦法。經濟學要講成本計算,而人類行為的規律揭示:每個人為自己的腳負責,是最經濟的辦法。不僅腳,其他事務也是如此。再說,如果是國王用全國人的錢為全國道路鋪上牛皮,有多少人會珍惜這條牛皮公路呢?因為反正是免費的,誰會在乎?但如果是自己買皮鞋,他們就不會隨意糟蹋腳上的牛皮了。

這是很簡單的道理,但在生活中人們常常不知道這一點。很多時候,我們陷入了“牛皮公路”的錯誤思維而不自覺,扮演著那個自以為得計的國王。

2013年,國外著名的社交網站Facebook預計將實現60億美元的收益,而創造這麼多收益的Facebook居然沒有向用戶收取一分錢。Facebook的所有服務對用戶都完全免費,如果你是Facebook的用戶,你會不會覺得你使用Facebook的服務簡直是在占這個網站的便宜呢?

如果你這麼覺得,你就已經陷入“牛皮公路”的思維了。Facebook不是慈善機構,它的管理者不是國王,他們的網站不是供所有人免費使用的牛皮公路。事實上,正如2010年《時代》周刊評選出的100位最具影響力的人之一的思想家傑倫·拉尼爾所說:“Facebook的用戶今年將為這家公司創造60億美元的收入,卻得不到一分錢的報酬。”

為什麼這麼說呢?這又是一個大數據的案例了。很多人暗暗覺得,Facebook不是一個慈善機構,它應該有自己的贏利方式,隻是自己不知道它是如何贏利的罷了。這是非常正確的思維方式,事實也確實如此。Facebook的價值正是數以億計的用戶在使用過程中不知不覺積累的大數據形成的。通過分析用戶的喜好、身份資料、個人信息和瀏覽習慣,Facebook就能夠猜測到每個用戶的喜好,比如,你最容易被哪類廣告吸引,每個網站頁麵都有一個“喜好”按鈕,哪怕你從來不摁,你的信息也會被反饋給Facebook。

在大數據時代,數據就是金礦,而創造數據的用戶便是產生金礦的原材料。Facebook的主要產品是社交網絡,而造就一個良好的社交網絡的最重要因素是它的內容。為Facebook提供內容的,正是一個個用戶。用戶提供的內容使網站變得美好,而他們的個人信息使得網站變得有價值。

這一切都解釋了為什麼像Facebook這麼一家雇員少於5000人的公司,如今市值超過650億美元。在思想家拉尼爾看來,這是一種巨大的不公平,也是大數據時代的一個巨大缺陷。像Facebook一樣的公司,通過收集我們的各種行為數據獲得巨大利潤,而我們的行為本身卻被視為是毫無價值的,似乎他們無須為我們的勞動付出任何報酬。這麼看來,在大數據時代,表麵上我們是在免費使用著某些公司的各種資源,而實際上是我們付出各種勞動,某些公司免費搜集著我們產生的數據,沒有給我們任何報酬。這麼一說,阿裏巴巴創始人馬雲曾說“免費的才是最貴的”確有一定的道理。

那麼,怎樣才是合理的呢?讓我們從小數據時代獲得一些啟示吧。比如,我們走在街頭上,一個陌生人走過來請求我們幫助完成一項問卷調查。這種事情是常有的,當然,我們可以選擇不合作。不過,很多時候我們都會幫忙完成。作為答謝,對方一般會準備一點兒小禮物,一支筆、一個小本子之類的。這算不上什麼報酬,隻能說是調查者對占用了被調查者的時間表示歉意的一種表達。那些如同Facebook一樣的公司應該學會這種傳統。首先,他們采集我們的數據,應該像在街頭找我們做問卷調查一樣征求我們的同意,而我們可以選擇不同意。在我們表示同意他們收集數據後,他們應該認識到,他們應該禮節性地表示點什麼。不然,這看似免費的服務才真正是最貴的。

一切皆可數據化

阿基米得曾經說:“給我一個支點,我就能撬動地球。”從某種意義上我們也可以說:“給我一組數據,我就能複製地球。”為什麼這麼說呢?數據到底能告訴我們多少信息呢?

在回答這個問題之前,我們不妨這麼假設一下:現在我們正在野外的一塊空地上挖掘,突然我們挖出了一個不明物體,這是一個規則的長方體。我們手上唯一的工具是尺子,現在我們量出了它的長、寬、高,也就能夠在紙上畫出這個長方體並算出它的體積。接著,我們發現這個長方體實際上是一個實心的大金塊,那麼根據黃金的密度我們可以算出它的質量,並根據當前黃金的價格給其估價;如果我們發現這塊金塊是貴重的文物,卻不知道具體是什麼時候的,我們可以把它帶到實驗室對它做C14鑒定,了解它具體製造於哪一年,進而推測是誰製造的,這中間又發生了哪些故事……

從一開始我們隻知道它是一個長方體到後來我們掌握了它的來龍去脈,這一步步裏我們是如何增加對它的認識的?其實,我們隻是逐步采集到了這麼一些數據:

1.這是一個長方體;

2.這個長方體的長、寬、高的值;

3.我們已知的知識告訴我們:體積\\u003d長×寬×高,質量\\u003d體積×密度,黃金的密度\\u003d 19.3克\/厘米3,由此得出物體質量;

4.由當前的金價,我們可以計算出這塊金塊值多少錢;

5.C14的半衰期為5700年,計算出這塊金塊的C14含量,就知道它製造的年代。

…………

這一過程中,我們采集到的具體數據越來越多,最後得到的信息也越來越多。我們采集到的數據的多少,決定了我們準確描繪它的程度。對一塊金塊是如此,對這個地球同樣是如此。當我們掌握的數據足夠多,多到我們足以完美描繪出這個地球的任何一個特征,我們就能夠將它數據化。同樣,我們采集到一個人的數據足夠多時,就能很好地用數據描繪這個人。

2011年12月,英國電視4台播出了一部名為《黑鏡》的迷你電視劇,全劇共兩季,每季3集,每集都是一個獨立的故事。雖然每集都有不同的演員上演不同的故事,但所有故事都是圍繞我們當今的生活展開的。在《黑鏡》第二季裏,編劇查理·布魯克為大家講了3個故事,其中第一個故事是這樣的:女主角是一個叫瑪莎的女孩,她深愛的男友艾什因車禍意外去世。剛剛懷孕的瑪莎痛不欲生,每天都沉浸在過去,懷念著有艾什的日子。艾什生前沉迷於各種社交網絡,在網絡上留下了不少東西,包括照片、視頻、聊天記錄、電子郵件等。而此時,一種新的電腦軟件出現了,隻要將艾什生前散落在網絡上的各種內容全部整合在一起,經過一係列複雜的數據分析,這個軟件就能夠準確地掌握艾什的各種特征,包括形象、語言風格等。通過這些特征,這個軟件可以再造出一個艾什出來。瑪莎接受了這項服務。這樣,瑪莎可以像過去一樣與虛擬的艾什進行網絡聊天、手機通話等。

這當然不是死而複生,而是一個大數據時代的奇跡。如果順著這個劇情設想,我們不難作出預測,在未來,現在不能數據化的東西都可以數據化,直到最後一切都可以數據化,包括一個人、一個世界。

這個故事到後來發展到瑪莎訂購了一個具有艾什特征的機器人,然後發現機器人畢竟隻是機器人,沒有艾什的靈魂,最終瑪莎放棄了這個機器人。導演似乎是要告訴我們,科技到任何時候都無法代替一個真正的人。可是,靈魂到底是什麼?不就是說機器人還不夠像艾什嗎?那也隻是因為艾什留下的數據還不夠大,如果艾什從出生到車禍死去前的所有行為特征都被采集到了,根據這個采集到的大數據定製出的艾什和真正的艾什又有何不同呢?

且不說這個劇裏導演的考慮,這個劇給我們最直觀的感受是:大數據分析可以強大到複製出一個人。在未來的世界裏,一切都可以數據化,包括人。一切都保存在互聯網的數據庫中,當你有一天需要的時候,數據庫服務商能夠將這些數據調出來給你。

一切都可以量化

很多傳統觀念告訴我們,有些東西是可以量化的,而有些東西不能夠量化。比如,一個書法家每天寫了多少字是可以量化的,數數字數就知道了,而寫字的優劣是沒辦法量化的,因為每個人欣賞眼光不一樣;一個魚缸裏有多少魚是可以量化的,數數就知道了,而整個地球的海洋裏有多少魚是沒法量化的,實在沒辦法去估算……現在,我們需要轉變這個觀念。

要知道,凡事皆可量化。隻要我們能夠找到觀察問題的方式,並從一個新的角度去衡量它,不管從這個新的角度衡量它到底精準度如何,隻要它能讓我們知道得比以前更多,那麼它就是一種可行的量化方法。實際上,對那些看似不可量化的東西,人們總能找到相對簡單的量化方法。

1938 年諾貝爾物理學獎得主、著名的物理學家恩裏科·費米在使用各種高明技巧方麵很有天分,在量化工作方麵也是如此。很多人都知道他的一些有關量化的有趣故事。

1945 年7 月16 日,美國新墨西哥州洛斯阿拉莫斯附近的特裏尼蒂沙漠進行了第一枚原子彈爆炸的試驗。在其他科學家對量化爆炸當量的儀器進行最後校正時,作為基地觀測爆炸情況的原子彈科學家之一的費米正在把一張紙撕成碎片。當第一波衝擊波衝過營帳時,他把碎紙屑慢慢撒向空中,觀察它們在衝擊波的衝擊下能飄多遠,最遠的碎片承受的就是波的壓力峰值。費米知道一條簡單規則,那就是碎紙片在風力作用下的漂移和他想要量化的數據有關。據此,費米得出結論:爆炸當量至少有10000噸。這應該是一條新聞,因為其他觀測者還沒有算出這個下限。人們都在估計這次爆炸的當量,有說5000噸的,有說2000噸的,但都是非常感性的猜測,沒有一個很好的估算辦法去衡量,也沒有其他的原子彈爆炸的參數去對比,因為這是原子彈的第一次爆炸。在人們根據儀器的讀數作了大量分析後,最終的計算結果為18600噸,這證實了費米的猜測。

在整個職業生涯中,費米深諳快速估算的價值,並以教授學生們估算一些奇妙的數值而著稱。學生們首次接觸這些問題時,對所要量化的東西簡直一無所知,最著名的例子就是“費米問題”。費米問他的學生該怎樣估計芝加哥的鋼琴調音師的人數,他們都是學科學和工程學的,開始時一般都會說他們對這個數據的相關知識知之甚少。

當然,也有一些解法是比較簡單的,如通過查看廣告一個個統計鋼琴調音師的數量,或者通過發證機構來檢查某種執照的數量等。但是,費米教給學生的是量化“無形之物”的方法,他希望學生們通過提問題並量化其數值,從而能真正了解並領悟到一些東西。

費米首先問學生們關於鋼琴和鋼琴調音師的其他問題,這些問題雖然也是不確定的,但相對容易一些,包括芝加哥當前人口數量(1930—1950 年,略超過300 萬)、每家平均幾口人(2 或3人)、家庭平均擁有的需要定期調音的鋼琴數量(10 家裏最多1 家,但30 家至少有1 家)、每部鋼琴需要調音的頻率(也許平均一年1 次)、一個調音師平均每天能調多少部鋼琴(4 ~ 5 部,包括交通時間)、一年工作多少天(約250 天)等。此時,根據這些數據就可以計算結果。

芝加哥的家庭數量\\u003d芝加哥人口÷平均每個家庭的人口數

芝加哥擁有鋼琴的家庭數量\\u003d芝加哥的家庭數量×有鋼琴的家庭的百分比

芝加哥每年需要調音的次數\\u003d芝加哥擁有鋼琴的家庭數量×每年需要調音的次數

一個調音師每年的調音次數\\u003d調音師每天調音的鋼琴數×年工作天數

芝加哥的調音師數量\\u003d芝加哥每年需要調音的次數÷一個調音師每年調音次數

根據選擇的不同特定值,所得結果應該是20~200,一般在50 左右。後來費米可能從電話號碼簿或行業協會弄到了真實值,當他把猜測值和真實值作比較時,發現他總是比學生們猜測的更接近真實值。或許20 ~ 200這個範圍看起來很大,但考慮到這是學生們最初從“我們怎麼猜得到”的態度開始一步步改進而得來的,就已經很不錯了。這種解決費米問題的方法,被稱為“費米分解”。這一方法不僅有助於估計不確定的數值,而且也給評估者提供了查看不確定性的來源。是每家平均擁有的鋼琴數量不確定,還是鋼琴每年需要調音的平均次數不確定,又或者是調音師每天調音的鋼琴數量或者其他什麼因素?弄清楚不確定性的來源,可以幫助我們量化相關事物,以便最大限度地減少不確定性。

從技術上說,費米分解法不完全是量化,因為它不是建立在一種新的觀測方式基礎上的,但它確實是一種讓你更加了解問題的評估方式。在大數據時代,數據在以我們無法想象的速度增長著,有些問題是無法實現非常精確的計算的,而費米分解就為我們提供了很好的思路。我們要避免陷入不確定性及無法分析的泥潭,為了避免被顯而易見的不確定性壓倒,應該從知道的事情開始提問。正如後麵看到的,評測我們目前了解的事物的數量,是量化那些似乎根本不可量化的事物的重要步驟。

大數據≠大價值

電視連續劇《薛平貴與王寶釧》中有一段劇情,說的是王寶釧的二姐王銀釧刻薄嫉妒、嫌貧愛富。她不但對母親疼愛寶釧感到憤憤不平,還非常看不起淪為乞丐的薛平貴。王銀釧曾對薛平貴百般羞辱,極盡嘲諷之能事,一心想讓王寶釧和薛平貴棒打鴛鴦兩處飛。後來,薛平貴飛黃騰達登上高位後,賜她金碗要她沿街乞討以示懲罰。討到金錢或食物算她好運,討不到東西就活該她倒黴。這還不夠,薛平貴還在懲罰裏加了限製條件:那隻金碗隻許用不許賣,並派官兵在她後麵監督。王銀釧拿著金碗怎麼也討不到飯,因為別人要麼認為她是神經病,要麼覺得事有蹊蹺不敢隨意施舍。

這個故事到這裏並沒有結束,但我們隻講到這裏。這裏有一個疑問:薛平貴為什麼要以這種方式懲罰王銀釧呢?這其實是一種暗諷。薛平貴就像那隻金碗一樣,非常貴重,王銀釧曾經離薛平貴那麼近,卻一點兒也不識貨,就像拿著金碗討飯一樣。一個金碗,在識貨的人手裏才能體現出它的價值。像王銀釧那樣拿著的金碗,既不能賣也不能換東西,失去了它應有的價值。其實,大數據也是這樣的。為什麼這麼說呢?

大數據並不等於大價值,就像金碗並不一定等於大價值一樣。一個企業掌握著龐大的數據,如果沒有對其進行數據分析,這些大數據就是一個沉重的負擔。因為光是采集和儲存這些數據都要耗費很多人力資源和時間成本,而采集到的數據沒有給企業帶來紅利,隻有支出沒有收入。

從麥肯錫的調查來看,大數據確實給很多行業帶來了價值,比如為美國的醫療行業帶來了每年3000億美元的價值,而其他的各行各業也一樣可以從大數據中受惠。

大數據帶來大價值,但是大數據不等於大價值。就像一座未開發的金礦不等於黃金萬兩一樣。金礦隻有通過開發成為金磚後才能產生價值,而數據隻有通過技術和分析工具顯現在大家麵前,使得數據變成信息,然後信息分離出有用的信息,才能產生價值。大數據也是一樣,無非就是數據的量不同。

大數據就像一座龐大的冰山,大量的數據都隱藏在海麵之下,顯現出來的隻有一點點。如何將這些大量的數據挖掘出價值,這是和IT技術進步相關的。現在,計算機的硬件和軟件計算能力都越來越強大,使得我們從大量數據中提取有用信息的速度也越來越快,很多以前我們無法計算的問題現在能夠得到解決。

例如,富士通幫日本的醫療機構做數據挖掘,其中一個項目是將很多電子病曆、抑鬱症患者的DNA信息、抑鬱症患者的重點發病地都結合起來。富士通和日本大學醫院政府做實驗,根據病例、氣象、DNA、地域數據,分析抑鬱症患者自殺的概率,建立數據模型,進行驗證。這在過去是不可能做到的,但現在有IT技術後,可以把假設通過技術很快地運算並加以驗證,這樣,以前沒有體現出價值的數據便體現出了價值。

另一方麵,過去某些大數據可能也是可以進行分析的,但是因為數據量太大或者計算過於複雜,得到結果的速度實在太慢,等待結果出來時,數據的時效性可能已經過了。比如我們要預測第二天的天氣,以前的計算機可能需要三四天才能夠計算出來,而等計算出來,預測本身已經失去了意義。而現在,同樣的計算可能隻需要幾個小時。這樣,預測本身的價值就體現出來了。

大數據不等於大價值,但大數據分析做好後,大數據就會帶來大價值。隨著大數據技術的發展,一些現在將大數據視為負擔的企業將越來越多地感受到大數據分析帶來的甜頭。

六、大數據的局限

大數據能在各行各業發揮其他工具完全無法代替的作用,但大數據並不是萬能的,並不是任何時候、任何場合都適用的。大數據本身也有局限性,在大數據成為一個熱門話題的今天,我們不能迷信大數據,而是需要弄清楚狀況,知道什麼時候需要使用大數據,什麼時候需要使用其他工具。

幾年前,世界爆發金融危機時,一家大銀行的CEO做出一個讓很多人都覺得不符合常規的決定。考慮到經濟的疲軟以及未來歐元危機的前景,很多人認為他應該會退出意大利市場,可是他最終決定留在意大利挺過任何潛在的危機。做決定前,這位CEO讓手下的智囊團預測出可能會發生的一係列不利情況,計算出這些情況對於公司意味著什麼。但是最終,他還是根據價值判斷做出了決定。他的銀行已經在意大利經營幾十年,他不想讓意大利人覺得他的公司是一個不可以共患難的朋友,他也想讓公司裏的員工覺得時局艱難時公司不會轉移,即便這樣做會有一些短期的成本損失。他在做決定時沒有忘記數據,但最終,他遵循了另外一條思路。結果表明,這條思路無疑是正確的。商業有賴於信任,信任是帶有感情的互惠行為。在艱難時期仍然堅守誠信的公司和人會贏得別人的好感和自尊,即便這些不易通過數據來衡量也是極有價值的。

這個故事裏麵暗藏了大數據分析的優點和局限。在當今這一曆史性時刻,用於數據收集的計算機正調節著我們的生活。在這個世界,數據可以用於理解令人難以置信的複雜情況,可以幫助我們彌補自己直覺上的過度自信,幫助我們減輕因為情感、觀念、經驗等主觀因素導致的對事實的扭曲。但是,還很有多事情,大數據是無能為力的。

比如,大數據對準確描述社會活動是無能為力的。人的大腦在數學方麵很差,但是在社會認知上很優秀。我們總能從一個人的麵部表情的微弱變化捕捉到其很細微的情緒,從一個微小的動作判斷對方的心理狀態。同時,我們很多時候需要用情感來對一些事物進行價值判斷。這些方麵,大數據並不擅長。大數據分析本身是由計算機來進行的,它善於衡量社會交往的數量而非質量。比如,一個社交網絡專家或許可以通過大數據分析繪製出你在平時80%的時間裏與常見的10名同事或朋友的交往情況,但他沒辦法通過大數據分析捕捉到你對在某個很遙遠的地方生活的近些年從來沒有見麵的前女友的複雜情感。因此,在做有關社會關係的決策時,要想用辦公桌上的粗糙機器替代神奇大腦的想法是很淺薄和愚蠢的。

大數據在解決很多領域的重大問題方麵也有局限。一個公司可以做一個隨機對照試驗來判斷到底是哪一封促銷郵件勾起了用戶的購買欲,但一個政府不能用同樣的辦法來刺激蕭條的經濟,因為沒有另外一個社會作對照。怎樣能夠刺激經濟增長,這個問題經濟學家和政府官員都很關心,也引發過很多爭論。關於這個問題,我們有堆積如山的數據可用,但是沒有哪位參與爭論的人會被數據說服。

而且,大數據分析更偏向分析潮流和趨勢,對一些突出的、特異的卻沒有辦法。當大量個體對某種文化產品迅速產生興趣時,大數據分析可以敏銳地偵測到這種趨勢,但其中一些可能非常傑出的東西從一開始就被數據摒棄了,因為它們的特異之處並不為人所知。

另外,數據本身也有局限。紐約大學教授麗莎·吉特曼有一本學術著作叫作《原始數據隻是一種修辭》,書中指出,數據從來都不可能是原始存在的,因為它不是自然的產物,而是依照一個人的傾向和價值觀念而被構建出來的。我們最初定下的采集數據的辦法已經決定數據以何種麵貌呈現出來。數據分析的結果看似客觀公正,但其實價值選擇貫穿了從構建到解讀的全過程。數據會掩蓋價值。沒有任何數據是原始的,往往是根據人的傾向和價值觀構建起來的。最終的結果看起來很無私,但實際上從構建到演繹一直伴隨著價值選擇。

這並不是說大數據就沒什麼了不起的,而是說數據和其他工具一樣,在一些方麵有優勢,而在另一方麵則有缺陷。

個人隱私的戰爭

有一段時間,穀歌執行董事長埃裏克·施密特成了網絡紅人,穀歌的不少用戶都將自己的網絡賬戶頭像更換成了埃裏克·施密特的照片。這不是因為施密特是他們的偶像,而是用戶對穀歌新廣告的抗議。這次大規模的抗議讓施密特陷入一個尷尬境地。這是怎麼回事呢?

原來,穀歌推出了一個名為“共同代言”的廣告政策,這個政策放寬了對個人資料的限製,它將允許廣告商使用穀歌用戶在Google+社交網站以及穀歌其他服務上的姓名、照片、評論等信息,以便為自己的廣告產品背書。這一舉措引起很多用戶的強烈反感,他們認為這侵犯了個人隱私,於是他們“以牙還牙”,將“無辜”的施密特作為頭像,讓施密特也感受一下到處都是自己做廣告的心情。

這一次,穀歌隻是一時處在了“風口浪尖”。其實這背後暗含的是一場無法避免的大數據和個人隱私之間的“戰爭”。

穀歌新廣告政策所謂的“共同代言”,究竟是怎麼一回事?