第五章 大數據的企業創新

大數據是一座金礦,掌握金礦的往往是擁有無數用戶和消費者的企業。在小數據時代,數據往往沒有得到足夠的重視,也沒有得到很好的挖掘,使得很多企業守著金礦卻過著苦日子。轉變姿態,主動適應這個大數據時代,企業便會發現,原來自己身在大數據的紅利窪地。

十三、大數據另辟蹊徑

大數據與流感預測

2009年,一種很奇怪的流感突然出現,在短短幾周時間裏,就迅速傳播開來。曆史上,流感曾經多次肆虐全球,奪走了數以億計的生命。這一次流感是甲型H1N1流感,它來勢凶猛,全球眾多的公共衛生機構都擔心會有一場致命的流行病蔓延開來。美國公共衛生機構要求醫生在發現新型流感病例時告知疾病控製與預防中心,但由於人們對流感的危險認識不夠,可能會出現患病多日都自己治療、一直到病情嚴重時才去醫院就診的現象。而且,醫院在接收流感病人後,要經過一段時間才能將信息傳遞給疾病控製與預防中心,而傳遞過程又需要一段時間。總的算來,從一個人患流感到疾病控製與預防中心得知信息,中間大約有一兩周的延遲,而疾病控製與預防中心每周隻進行一次數據彙總。那麼,對於一種以非常快的速度蔓延的疾病來說,信息滯後兩周的後果是非常嚴重的。

湊巧的是,在這次甲型H1N1流感爆發前幾周,穀歌的工程師們在《自然》雜誌上發表了一篇論文,說他們能夠預測冬季流感的傳播。穀歌是如何做到這一點的呢?

在這個互聯網發達的大數據時代,人們早就習慣了借助網絡來搜索各種問題的答案。穀歌的工程師想到,在患流感後,應該會有很多人通過穀歌查詢該怎麼辦;穀歌的服務器保留了多年來用戶留下的所有搜索記錄,而且每天都會收到來自全球超過30億條的搜索指令,如此龐大的數據資源足以支撐和幫助它完成預測工作。

穀歌用幾十億條檢索記錄,處理了4.5億個不同的數字模型,結果證明,的預測與官方數據的相關性高達97%。和疾病控製與預防中心一樣,穀歌也能判斷出流感是從哪裏傳播出來的,而且其判斷非常及時,不像疾病控製與預防中心那樣,要在流感爆發一兩周後才可以做到。

所以,2009年甲型H1N1流感爆發的時候,與滯後的官方數據相比,穀歌的預測數據成了一個更有效、更及時的指示標,公共衛生機構的官員由此獲得了非常及時、有價值的數據信息。穀歌不懂醫學的工程師們的疾病預測走在了前麵,對專業預測提出了挑戰。他們基於事物相關性原理做出的大數據預測,其精準性與傳統方式不相上下,而其速度是傳統方式所無法比擬的。

無獨有偶,日本國內也有一個網站,隻要你打開這個網站用自己的推特賬號登錄,就可以在短時間內通過數萬條推特消息找出可能感冒的人,並對過去的感冒情況和今日的感冒情況進行分析,另外這個網站還會結合氣溫和濕度的變化來預測將來感冒的流行情況,並製作一個“易感冒日曆”。這家網站表示,通過其大數據分析,大家就能夠知道在自己身邊到底有多少人有感冒的症狀,並提前做好預防準備。

此外,日本京都大學的荒牧研究室也運營了一個名叫“流感君”的網站,主要功能是通過感冒信息的檢索,預測流感的分布狀況,比如流感在哪些地區比較嚴重、哪些地區未來出現流感的可能性較大。這個網站會自動將推特上的話題進行分類,並選擇實際感染上流感的人群的留言,然後進行人工編輯,之後,服務器通過 GPS 定位,在地圖上標記感染者所在的位置。如果某個地區的流感有加重的趨勢,那個區域將會被標紅,提醒當地的人注意防範。

與傳統數據分析的邏輯推理研究不同,大數據研究是對海量的數據做統計性的搜索、比較、聚類和分類等分析歸納。大數據所分析的是全部數據,通過對所有數據的分析就能洞察細微數據之間的相關性,從而提供指向型商業策略。

人們一直以來都在追求“實事求是”“按客觀規律辦事”,但是,由於對環境的認知能力的局限,或者說獲取數據、分析數據的能力的局限,人們一直按照尋根求源的方法來了解這個世界,但一直不能很好地了解什麼是“事實”或什麼是“客觀規律”,人們對自己身邊事物的認知過程像“瞎子摸象”一樣,隻能了解局部的情況,整體的情況隻能憑借有限的數據去推斷,這種判斷的結果與實際情況往往有很大的差距。

隨著科技的發展,由於數據收集能力、計算機計算能力、數據存儲能力的提高以及網絡技術、雲計算的出現,人們可以根據海量數據依靠相關性理論進一步認識世界。關注相關性而非因果,讓我們可以更高效地利用數據而不是研究數據。隻要發現了兩個現象之間存在著顯著相關性,就可能創造出巨大的經濟利益,而不必非得像科研機構一樣馬上弄清楚其中的原因。

錯誤數據的用處

大數據的數據量龐大,大到我們完全沒辦法一個個核實,比如,一個數據庫記錄下了一千萬人的體重,其中有幾個人的體重記錄明顯是錯的。雖然我們一個個去核實數據,的確可以能挑出這幾個錯誤數據,但一份一千萬人的體重記錄以完全不成結構的方式擺在你麵前時,你想的第一件事情一定是“怎麼才能夠不去核實數據”。事實上,錯誤的數據在這個大數據庫裏顯得微不足道,對最後數據分析的結果根本沒什麼影響,就像一滴墨水滴在大海裏一樣,大海並不會被染色。

但有的時候,錯誤的數據會變得非常有用,在某些地方,錯誤的數據比正確的數據還有用。這又是怎麼回事呢?

比如,你上網打開百度網站首頁,在搜索框裏輸入“局部地區有血”幾個字並點擊搜索,百度會提醒你是不是要搜索“局部地區有雪”,這就是一個非常好的例子。百度從眾多的搜索請求裏發現很多搜索“局部地區有血”的人,其實是在搜索“局部地區有雪”時輸入文字發生了錯誤,因此會給出這麼一個提示。

這個功能很貼心實用,我們可以想到,百度的這個功能或許可以繼續拓展,在不久的將來用於校對文章裏是否有錯別字、資料裏是否有錯誤數據,等等。而另外一個搜索巨頭穀歌,則利用錯誤數據做了一件了不起的事情。

2006年,穀歌公司也開始涉足機器翻譯。這被當作實現“收集全世界的數據資源,並讓人人都可享受這些資源”這個目標的一個步驟。穀歌翻譯開始利用一個更大更繁雜的數據庫,也就是全球的互聯網,而不再隻利用兩種語言之間的文本翻譯。

穀歌翻譯係統為了“訓練”計算機,會吸收它能找到的所有翻譯。它會從各種各樣語言的公司網站上去尋找聯合國和歐洲委員會這些國際組織發布的官方文件和報告的譯本,甚至會吸收速讀項目中的書籍翻譯。穀歌翻譯部的負責人弗朗茲-奧齊是機器翻譯界的權威,他指出,“穀歌的翻譯係統不會隻是仔細地翻譯300萬句話,它會掌握用不同語言翻譯的質量參差不齊的數十億頁的文檔”。不考慮翻譯質量的話,上萬億的語料庫就相當於950億句英語。

盡管其輸入源很混亂,但較其他翻譯係統而言,穀歌的翻譯質量相對而言還是最好的,而且可翻譯的內容更多。到2012年年中,穀歌數據庫涵蓋了60多種語言,甚至能夠接受14種語言的語音輸入,並有很流利的對等翻譯。之所以能做到這些,是因為它將語言視為能夠判別可能性的數據,而不是語言本身。如果要將印度語譯成加泰羅尼亞語,穀歌就會把英語作為中介語言。因為在翻譯的時候它能適當增減詞彙,所以穀歌的翻譯比其他係統的翻譯靈活很多。

穀歌的翻譯之所以更好並不是因為它擁有一個更好的算法機製,而是因為穀歌翻譯增加了很多各種各樣的數據。從穀歌的例子來看,它之所以能比其他翻譯係統多利用成千上萬的數據,正是因為它接受了有錯誤的數據。2006年,穀歌發布的上萬億的語料庫,就是來自互聯網的一些廢棄內容。這就是“訓練集”,可以借此正確地推算出英語詞彙搭配在一起的可能性。

20世紀60年代,擁有百萬英語單詞的語料庫——布朗語料庫算得上這個領域的開創者,而如今穀歌的這個語料庫則是一個質的突破,後者使用龐大的數據庫使得自然語言處理這一方向取得了飛躍式的發展。自然語言處理能力是語音識別係統和計算機翻譯的基礎。彼得-諾維格,穀歌公司人工智能方麵的專家,和他的同事在一篇題為《數據的非理性效果》的文章中寫道,“大數據基礎上的簡單算法比小數據基礎上的複雜算法更加有效”。他們明確指出,混雜是關鍵。

從傳統意義上說,穀歌的語料庫是布朗語料庫的一個退步。因為穀歌語料庫的內容來自未經過濾的網頁內容,所以會包含一些不完整的句子、拚寫錯誤、語法錯誤以及其他各種錯誤。況且,它也沒有詳細的人工糾錯後的注解。但是,穀歌語料庫是布朗語料庫的好幾百萬倍大,這樣的優勢完全壓倒了缺點。

數據也甜蜜

一年時間,大數據已開始進入人們生活的方方麵麵,戀愛也不例外。據相關統計,有約五分之一的戀愛關係是從婚戀網站開始的。新華社曾經有一篇文章說中國適婚的單身男女數量已超過1.8億,這一群極力脫離單身的年輕人正在努力尋找某種方式去遇見愛情,婚戀網站成了他們最好的選擇。婚戀網站是如何利用大數據給兩個素不相識的人牽線搭橋當紅娘的呢?

婚戀網站溫馨甜蜜的氣氛背後,是默默無聞的龐大數據庫。這個龐大的數據庫收集了用戶各方麵的信息,當數據分析結果顯示兩個年輕人的各項信息都十分匹配時,網站便當起了紅娘,對兩人發送推薦信息。許多用戶並不知道,婚戀網站除了紅娘,還有一群數據庫專家、大數據科學家和數學家在辛勤工作。用戶在注冊和使用中國最大的婚戀交友運營商世紀佳緣網站時,通過收發信件、填寫資料提交了包括擇偶條件、自身情況、興趣愛好以及其他細節的大量數據。有了這些數據之後,世紀佳緣利用數據庫從分布全國的服務器中搜索最匹配的用戶。係統要與其他千萬名注冊用戶進行數據比對,至少進行10億次計算。經過一係列複雜的算法,用戶未來的愛人就出現在其屏幕上。數據輸入質量決定輸出質量,這是所有數據庫共有的特點。用戶在在線交友網站上填寫的資料越詳細,回答的問題越真實,就越能找到真愛。

世紀佳緣智能網警查殺係統也是通過深入挖掘大數據發生作用。據悉,世紀佳緣智能網警查殺係統人工排查一個問題賬號並加入黑名單的用時約133秒,而智能係統用時隻需60秒。在智能係統引入之前,審核工作主要依靠工作人員手動將詐騙分子的數據特征輸入後台進行檢索,再結合登錄時間和發信狀況進行人工排查。係統引進後,智能係統會根據相關數據進行自動檢索。係統投入後,世紀佳緣的查殺效率提高了45%以上。

根據會員行為軌跡,通過大數據的挖掘,從龐大的會員數據庫中挖掘出各種信息碎片,通過資料完整度、交友真誠度及賬號安全度3個維度來評定這個用戶是不是靠譜。其中資料完成度占了50%的比重,交友真誠度和賬號安全度則分別占了20%和30%。用戶可通過個人主頁查看自己的“靠譜度”分數,若用戶“靠譜度”分數較低,可通過完善資料、誠信認證、上傳照片以及發信回信的方式獲取高分。除此之外,用戶可通過購買服務實現對心儀對象靠譜度的查詢。

在中國,像世紀佳緣一樣的婚戀網站依靠大數據分析做得紅紅火火,而在日本,大數據在婚戀方麵也扮演著重要角色。日本社會老年化、少子化的現象十分嚴重,未婚率逐年攀高,平均結婚年齡也一直在增長,很多日本人對這一現象十分憂心卻又束手無策。而現在,大數據就能幫上忙。

在日本和歌山紀美野町舉辦了一次相親派對。紀美野町舉辦相親派對的初衷,是為了給未婚青年男女提供更多的結識機會,以緩解人口數量較少的該地區青年未婚率過高的問題。在派對上,未婚男女先是自我介紹,晚宴上可以自由交流,在谘詢調查過程中寫出合乎心意的異性姓名,活動最後則公布速配成功的男女。為了提高配對成功的比率,活動舉辦者希望借助先進的數據獲取和分析工具,改進活動的舉辦方式,並對參加者提供交友建議。

參加相親派對的男女都被要求佩戴胸卡式傳感器。在活動過程當中,這個傳感器可以實時取得參加者在相親活動中的一係列數據,包括與異性交流情況以及進展速度等。在活動舉辦前,宣傳單、谘詢窗口以及技術人員的講解,使參加者解除了害怕交談內容被記錄從而泄露個人隱私的顧慮,大數據相親活動得以順利進行。實際活動中,參加者非常投入,對於佩戴傳感器一事並不在意,而且也有參加者希望了解速配成功男女的交流方式。

日本的兩個大企業為相親派對的主辦方提供了數據采集和分析技術的支持。獲取的數據在某企業提供的係統中進行分析,整個活動情況被製成組圖,每個人的交流情況等將給予可視化展示。為了保護個人隱私,可視化展示裏並不包括個人基本信息。派對主辦方以此為基礎,研究交流方式和配對成功的關鍵要素。

活動的主辦方認為,以前活動結束後,他們雖然也會努力聽取參加者的意見,但這種方法較為主觀,過多地依賴工作人員的感覺而不是中立理性的數據支持。而通過大數據的方式,則可以為完善活動細節、為參加者提供建議和數據支持。

一家國外的約會網站的研究員通過分析7000多張個人照片,並基於每個用戶收到的信息數量來確定哪些照片最有利於在線約會成功。研究者們將照片分為3類:調情臉、微笑臉和嚴肅臉。調情臉指人“直接對著鏡頭調情”,跟微笑或看上去高興的臉不一樣。結果發現,照片用調情臉的女性每月都比別人多收到一點信息,與鏡頭沒有眼神接觸的人收到的信息會比有眼神接觸的人少一些。與女性情況相反,男性在資料中使用不看鏡頭且比較嚴肅的照片時,最有可能成功約到女性,使用看上去像在調情且不看鏡頭的照片則最難約到女性。

因此研究者得出這樣的結論:照片可以說明一切。照片激起瀏覽者的好奇心,很大程度上展示了主角是一個什麼樣的人。同時,主角不能忽視選擇正確照片的重要性。

這一切都說明,大數據不僅僅是商業工具,隻要有合適的數據源,它同樣可以向我們展示如何最好地展現自我以尋求到合適的另一半。大數據在社交上的意義遠不止這些。它能為我們提供視角,了解圍繞在我們關係周邊的外界環境,還能加深現有關係並支撐新關係的建立。

在線約會,數據也能讓人感覺甜蜜。數據采集及分析在我們想得到的、想不到的領域都發揮著作用,這反映出大數據對人們日常生活日益增強的滲透作用。

IBM的美味機器

2012年,大數據對於普通人來說還是一個很陌生的名詞;2013年,街頭巷尾的人們都在談論著大數據可能給生活帶來的變化。如果你此前從來沒有聽說過大數據這個詞,也許你不知道它到底能用來做什麼。“大數據是什麼,能吃嗎?”如果你這樣問IBM的研發團隊,他們有可能告訴你:“是的,能吃,而且味道相當不錯哦。”

這當然不是說大數據能吃,而是指他們可以利用數學、化學和大數據分析技術,製作出一些前所未有而又不同尋常的食譜。

通常,我們為了解決一個問題,會進行以下步驟。首先,我們需要理解我們打算解決的問題到底是什麼,難度在哪裏,怎樣才算解決了;然後,我們需要從這個問題的難點入手,盡可能多地學習相關知識,從而積累起專門的知識,並在這套知識的武裝下,生成一些新的想法,甚至把不同類型的想法結合起來;接下來,就是從這一大堆想法中挑選出最具創意的;最後,實現我們的想法。

IBM的研發團隊也是這麼考慮的,他們構建了一套算法,根據以上這個解決問題的步驟建立了模型。盡管這些步驟中有很多以前就曾經由計算機執行過,但IBM團隊的過人之處在於他們找到了量化一份食譜的創造性辦法,並且能把所有不同的部分結合在一起。

領導IBM團隊開發這種新型食譜生成係統的拉夫·瓦什內一直都用這套係統生成的食譜來做飯,而且他還表示這套他們自己創造的食譜中有一些菜確實非常好吃,比如奶油烤肯尼亞球芽甘藍、開曼車前草甜點和瑞士與泰國混合式蘆筍乳蛋餅。還有一些菜譜是研發團隊與合作夥伴烹飪教育學院合作創造的,那可就是世界級的食譜了,比如西班牙扁桃牛角麵包和厄瓜多爾草莓甜點。

那麼IBM的計算機大廚們是怎麼通過大數據分析來創造美味的呢?