首先,啟動軟件時,使用者會被要求選定一種關鍵食材,以及使用者想要製作哪個地區的菜係,然後決定使用者感興趣的餐食類型(比如湯或者蛋餅)。這是第一步,相當於告訴計算機“你要解決的問題是什麼”。
然後是第二步,這是最重要的一步。在這一步裏,大數據分析起著最重要的作用。計算機會調動電腦裏存儲的好幾百萬份不同食譜的文本數據,研究者們利用自然語言處理算法掃描並分析這些數據。利用這些數據,他們將已經成文的食譜轉化為關係網,包括不同食材的用量和將這些食材做成食物的過程;他們掃描維基百科,了解在各個地區菜係中通常會用到哪些食材;他們考察調味品的說明書,了解不同調味品中含有哪些分子,並獲取了這些分子的化學結構方麵的信息;他們還收錄了人們對70種不同化學成分的“好感度”評分……最終,研究者們積累了巨量計算機可讀的知識體係,其中包括人類的口味偏好、地區食譜和這些食譜化學構成方麵的信息。程序就這樣做好了掌勺的準備。
第三步,軟件從某種菜係的傳統食譜開始,產生出幾百萬條符合用戶要求的新食譜。這些食譜不是隨機產生的,而是遵循著“食物搭配律”的經驗法則生成的。食物搭配律的主要內容是在食譜中能夠良好搭配的食材有著相同的呈味分子。全新的食譜是依靠“異化”現有食譜中的食材,然後將其與其他食譜融合、產生各種各樣前所未見的混合食譜的方式得來的。這種算法被稱為遺傳算法,是在模仿生物遺傳變化的過程。
也許你會問:“一下子產生了幾百萬種菜譜,肯定有很多是非常失敗的,要麼口感不好,要麼味道不好。怎麼選出味道好的呢?總不能把這幾百萬道菜都做一遍吧?”說得對,計算機生成的幾百萬種食譜確實沒法做成菜一一驗證。就算可以驗證,願意品嚐幾百萬種奇特乃至奇葩的新食譜的誌願者估計也很難找,比如突然端上來一道叫作“蒜蓉糖葫蘆炒臭豆腐”的菜,估計會讓很多誌願者失去下筷子的勇氣。
這一步,研發人員早就想到了。研發人員的對策是:不做出菜,直接讓軟件自動化處理。那麼,到底是怎麼自動處理的呢?畢竟,軟件又不會有味覺,怎麼能把不好吃的菜給剔除掉呢?
IBM的研發人員希望他們的食譜能做到非常具有創造性,同時實現新穎和美味兩個標準。他們是這麼考慮的:每個人對新鮮食物的接受能力都不一樣,而且由於地區和文化差異,本身每個人對食物的偏好也不一樣。越是和你以往吃過的食物相似的食譜,就越是不會讓就餐者感到新奇;越是那種奇葩得你用腳趾頭都想不到的食譜,就越能讓就餐者覺得出乎意料。出於這種考慮,他們根據一個食譜能夠多大程度上讓就餐者感到詫異來衡量這份食譜的新穎程度。
然後考慮的就是味道了,味道的形成本身是非常複雜的,我們的舌頭能夠品嚐出幾種基本的味道:甜、鹹、酸、苦和鮮。然而,我們對食物的體驗還受到很多其他因素的影響,比如食物是不是溫熱的,是奶香味還是糖一樣的甜膩味,口感粗澀還是黏滑,是很耐嚼還是入口即化……另外還有其他的一些因素,比如咬它時它發出的聲音、你的饑餓程度、這種味道所勾起的記憶,等等。
研究者最後從神經美食學領域的研究工作得出了強有力的論點:氣味是味覺的主要構成部分。因此,隻需考慮一盤菜的氣味即可。這聽起來似乎很荒謬,氣味是鼻子聞到的,味道是舌頭嚐到的,這完全不一樣嘛。不過,我們不妨想想自己感冒鼻塞後吃東西的場景,那時我們的舌頭是正常工作的,可是我們會覺得食物沒什麼味道,因為聞不到氣味。
那麼軟件怎麼知道一盤菜聞起來香不香呢?這個問題的答案要到化學中去找。軟件會考察一份食譜中所有不同的呈味分子,查詢它們的化學性質——這個過程會用到很多技術名詞,諸如“拓撲極曲麵麵積、重原子數、複雜度、可旋鍵數量,以及氫鍵受體數量”。通過將這些化學性質與其他70種氣味分子作比較,研究者們可以預測一盤菜的氣味是香氣四溢還是惡臭撲鼻。最後他們在計算機裏把各種不同分子的氣味混合起來,算出每種食物的“香度”。
最終,軟件產生了一係列食譜,並以3個標準排序:新奇程度、氣味怡人度和口味搭配。到這裏,一份菜譜就被挑選出來了。
大數據給我們帶來的新鮮感是不可想象的,也許,在不久的將來,我們走進一家美食店,會看到計算機正在自己生成食譜並根據食譜來烹飪食物。
“預言帝”的誕生
2008年到2010年,一隻叫作“保羅·愛倫”的章魚在互聯網上被球迷們狂熱追捧,大家紛紛稱之為“預言帝”。 保羅生活在德國的奧博豪森海洋館,章魚保羅這個名字來自德國兒童作家波爾洛生所作的詩《章魚保羅》。保羅前後一共“預言”了14場足球比賽,其中13場都是準確的,正確率高達93%。
下麵就是保羅的預測成績:
2008年歐洲杯(6次預言,5次準確。正確率83%)
賽事 預測 結果
德國VS波蘭 德國勝 德國2-0勝 √
德國VS克羅地亞 德國負 德國1-2負 √
德國VS奧地利 德國勝 德國1-0勝 √
德國VS葡萄牙 德國勝 德國3-2勝 √
德國VS土耳其 德國勝 德國3-2勝 √
德國VS西班牙 德國勝 德國0-1負 ×
2010年世界杯(8次預言,8次準確。正確率100%)
賽事 預測 結果
德國VS澳大利亞 德國勝 德國4-0勝 √
德國VS塞爾維亞 德國負 德國0-1負 √
德國VS加納 德國勝 德國1-0勝 √
德國VS英格蘭 德國勝 德國4-1勝 √
德國VS阿根廷 德國勝 德國4-0勝 √
德國VS西班牙 德國負 德國0-1負 √
德國VS烏拉圭 德國勝 德國3-2勝 √
西班牙VS荷蘭 西班牙勝 西班牙1-0勝 √
保羅的“預言”準確率如此之高,幾乎沒有人能夠像它一樣準確預測賽事。當然,這14場比賽沒有一場平局也是保羅預測準確率高的原因之一。那麼它是怎麼預測的呢?
原來,在比賽之前,海洋館員會在章魚保羅附近放上兩個裝有貝殼的盒子,盒子上麵貼著比賽的兩個國家的國旗,保羅到哪邊吃貝殼,就說明保羅“預言”哪一方勝利。海洋館的發言人表示,雖然保羅生活在德國,但大家沒必要擔心它會偏向德國,因為它出生在英國,是一個“很多代的移民後裔”,祖先或許來自阿根廷。
很多人質疑保羅的“預測”的真實性,比如有人認為德國人之所以選擇用章魚來預測,是因為德國國旗的顏色正是章魚喜歡吃的食物顏色。還有人認為海洋館之前做了兩套視頻,一套預測德國勝利,一套預測德國失敗,在谘詢了權威和專家之後有選擇性地放出視頻。當然,也有章魚保羅的支持者認為,保羅的預測隻是一次小概率事件,概率雖小但不代表不可能發生。其實這個沒必要去較真,大家誰都沒打算相信一條章魚有多麼的神奇。要知道,有些資深的足球從業人士都沒辦法準確預測賽事。比如球王貝利。
球王貝利的烏鴉嘴是有名的。1990年世界杯,他看好南斯拉夫隊,結果南斯拉夫第一場慘敗於德國,另外他看好的“百年以來最強大”的巴西隊,第一場就被淘汰;1992年歐洲杯,他繼續看好南斯拉夫隊,結果南斯拉夫被禁賽;1994年世界杯,他看好哥倫比亞,結果哥倫比亞小組被淘汰,後衛被槍殺;1996年歐洲杯,看好土耳其,土耳其很快被淘汰;1998年世界杯,小組賽時貝利看好西班牙成為黑馬,結果西班牙小組都沒出線;小組賽結束,看好尼日利亞,結果好好的尼日利亞,淘汰賽第一輪就回家了;決賽前他看好巴西隊,巴西隊以曆史最大慘敗輸了世界杯……再說一條跟中國相關的:20多年前,貝利訪問中國,說你們很快就能進入世界杯,結果中國隊苦苦掙紮了20年。
最有趣的是在2010年世界杯,德國和阿根廷的比賽。球王貝利表示看好阿根廷,而章魚保羅預測德國會勝利。媒體幽默地把貝利和章魚保羅的不同預測稱為“世紀對決”。最終章魚保羅成功預測。
章魚保羅和貝利,一個準確率奇高,一個錯誤率奇高。二者預測的方式完全不同,在數據分析師看來也都不過是娛樂。大數據時代,基於大數據的分析變得越來越精準。我們不妨看一下第85屆奧斯卡獎的預測。
2013年2月25日,第85屆奧斯卡頒獎典禮在杜比劇院舉行,本·阿弗萊克執導的《逃離德黑蘭》獲得最佳影片,而華人導演李安則憑借《少年派的奇幻漂流》擊敗邁克爾·哈內克、史蒂文·斯皮爾伯格等,再度斬獲最佳導演獎。《少年派的奇幻漂流》全場共拿下4個獎項。《悲慘世界》與《逃離德黑蘭》以3個獎項並列全場第二。史蒂文·斯皮爾伯格的《林肯》以12項提名的氣勢駕臨頒獎禮,最終隻收獲了最佳男演員和最佳藝術指導獎。
在大獎頒發之前,關注電影資訊的人們按照慣例開始猜測各項獎項會花落誰家,其中更不乏一些明星藝人。今年,章子怡也在微博裏大膽預測奧斯卡獲獎名單,她成功猜對了最佳女主角和最佳男主角這兩個最具分量的獎項,預測結果猜中了近七成。
相比章子怡的預測,微軟紐約研究院的經濟學家戴維·羅斯柴爾德才是真正的專業級預測。因為戴維·羅斯柴爾德的預測采用的是大數據分析技術。除最佳導演外,其他各獎項的預測戴維·羅斯柴爾德全部命中。事實上,早在2012年美國總統大選中,戴維就曾正確預測了51個選區中50個地區的選舉結果,準確性高於98%。這個準確率可比預言章魚保羅高多了,這才是真正的“預言帝”。
這些應用大數據技術進行的分析預測,讓人感覺到大數據時代確確實實地來了。我們的生活中出現的各種資訊和變化都表明,我們已經生活在大數據時代。
前段時間,微軟又公布了戴維·羅斯柴爾德的最新一則訪談。在訪談中,他利用同樣的數據收集和分析方法,公開了2014年世界杯的預測結果:巴西將奪冠。根據數據預測,巴西隊的奪冠率達到22.5%,遠遠高於其他對手,隨後依次為阿根廷、德國、西班牙、比利時。
球隊 預測奪冠率
巴西 22.5%
阿根廷 16.4%
德國 14.1%
西班牙 11.2%
比利時 5.3%
哥倫比亞 4.3%
法國 3.8%
意大利 3.2%
有意思的是,該網站還提供了2016年美國大選的預測結果,根據目前的數據,民主黨的希拉裏·克林頓有望成為美國曆史上第一位女總統,概率為32%。當然,隨著時間的不斷發展、數據的不斷更新,預測結果會發生變化。
大數據分析對未來的預測要比如同求神問卜一般的章魚保羅的預測好得多,卻一點兒也不神秘。任何一個人,隻要掌握好了這個工具,一樣能做“預言帝”。數據分析在預測方麵,有著其他很多工具不可代替的作用。
十四、大數據的破壞式創新
餘額寶的大數據思維
網購達人陳佳幾乎每天都有快遞送上門,每天,她都要通過手機上的“支付寶錢包”支付不少訂單。可是這幾天很奇怪,她依然每天都打開手機上的“支付寶錢包”,有時每天還打開很多次,可是每次都是打開看了一眼就關了,一筆訂單都沒有支付。她到底是在做什麼呢?原來,她在查看她存在餘額寶上的錢產生的收益。她往餘額寶上存了兩萬塊錢,每天下午,就有大約3塊錢的收益會打到她的餘額寶賬戶上。她每天打開支付寶錢包,就是查看這個的。
餘額寶現在非常受年輕人的喜愛,很多人都把自己的一部分錢放到餘額寶上存著,每天看著它漲一點兒。餘額寶是2013年6月13日阿裏巴巴上線的一個理財產品。上線之後,餘額寶的規模就一直處於急劇膨脹之中。6月底,其用戶突破250萬戶;8月中旬,規模超過200億元;三季度末規模更是超過500億元;到12月中旬,其資產管理規模突破千億大關。中國基金業發展至今曆時超過15年,從未出現千億級別的基金,然而基於支付寶平台的餘額寶,用了僅僅6個月就實現了。這樣的成績令公募基金界為之震驚,他們一改過去消極合作的態度,紛紛來到杭州與阿裏巴巴洽談合作事宜。是什麼讓餘額寶如此火爆呢?又是出於什麼考慮,基金界此前會出現消極態度呢?
餘額寶為何能夠創造“奇跡”?它所嵌入的貨幣基金並不是市場收益最高的產品,合作的基金公司也不是行業知名公司。它的奇跡就在於突破了傳統的金融思維,依托大數據創造了優質客戶體驗、風險精準預測。餘額寶的成功,實際上是與互聯網開放、服務草根文化密不可分的。在我們進入大數據時代後,很多銀行依然沒有吃透長尾理論,他們隻要長尾的“頭部”,也就是少數的擁有數額可觀的資金的客戶,而對在互聯網時代可能占80%的草根用戶,其服務是很不到位的。比如,同樣是存款,存款數額大的賬戶會有可觀的利息產生,存款數額小的賬戶有的不僅沒有利息,甚至還要被銀行收取“管理費”。銀行理財的購買起點也往往以萬計算,然而草根用戶可能並沒有足夠的可支配收入去購買理財產品。相對來說,餘額寶就完全不一樣,無論你存多少錢進去,一塊錢也好,一百萬也好,餘額寶都一視同仁,按照同樣的比例分發收益,而且每天都發。餘額寶裏的錢很容易轉進轉出,像網購達人陳佳就會經常把餘額寶裏的錢用於支付淘寶上的訂單,或者將銀行卡裏的錢轉到餘額寶上。對於草根用戶和很多年輕人來說,普通的理財產品門檻太高、手續太麻煩,而餘額寶在給他們理財的同時就帶來了不少便利。
餘額寶的理財思維明顯具有大數據時代的特征,它不設置任何門檻,明顯就準備好了為長尾理論裏的“長尾”用戶群體服務。從名字就能看出,餘額寶本身是定位於支付寶賬戶的餘額的,這說明餘額寶做的是小微金融。對於銀行來說,小微金融是髒活累活,大企業做一單比小微企業做上百單都賺得多,銀行做小微金融是投入產出比很低的業務。餘額寶可能正是看中了這一點:銀行不願服務的80%的草根用戶,就單個用戶來說,資金肯定微不足道,但累積起來數額絕對可觀。而對於一些傳統基金公司來說,他們很希望接納草根用戶,但他們並不具備大數據思維,對互聯網的理解也不夠深入,無法創造出餘額寶這樣的產品。
餘額寶客戶定位於“月光族”或者“小白”客戶,掀起一元起賣的“草根理財盛宴”,並且隨時隨地觸手可及,不需要排隊、不需要填單,也無須被網上開戶折磨,不用怎麼學習就會用,隻需在支付寶賬戶裏,點擊“轉入”餘額寶即可。這些都是令草根用戶心動的理由。而令阿裏巴巴心動的則是這個幾個數字:中國電子商務研究中心數據顯示,2013年上半年,阿裏巴巴集團旗下的天貓以50.4%的市場份額位居B2C網絡交易榜首,阿裏巴巴在B2B方麵也以46.4%的市場份額位居第一,淘寶集市則在C2C方麵占據整個市場的95.1%;這些交易大多是通過支付寶進行的,支付寶的注冊用戶有8億,活躍用戶大概有2億,這樣一個用戶數,隻要有一定比例的人使用餘額寶,餘額寶的前景就非常看好。
在管理餘額寶時,大數據一樣起著非常關鍵的作用。業內人士認為,餘額寶快速成長的背後,風險也變得越來越大。現在用戶可以隨時消費餘額寶裏的資金用於網絡交易,這實際上是支付寶先墊錢給餘額寶,因為餘額寶每天產生的收益是在每日收盤後才給支付寶結算的。這中間,如果出了什麼問題,導致餘額寶沒辦法按時和支付寶交割,支付寶就會成為餘額寶這個龐大基金遭遇風險的第一個受害者。對於這個,餘額寶似乎一點兒都不擔憂,這種信心便來自阿裏巴巴的大數據分析能力。比如,支付寶每天多次提供用戶轉賬、購物等數據給餘額寶及其他基金公司,而餘額寶的數據分析師會對這些數據進行監控、分析,將結果給基金經理進行參考,預估第二天要贖回多少資金,以安排貨幣基金第二天的流動性。