第六章 個人與政府的新機遇

大數據時代,數據並不是最重要的,如何使用數據才是最重要的。同樣的數據,交給不同的人來分析,可能分析的結果會各有不同,最後的用處也各有不同。我們在生活中會遇到越來越多的大數據,隻要對其科學分析、合理利用,每個人的生活品質都會得到提升。

十六、工作中的大數據

搜狗熱詞的秘密

每天固定的時間,小王就會點擊網頁,打開“百度搜索風雲榜”和“搜狗熱詞”,看看最近網上的人們都在關注著什麼話題,然後他會搜索相關的話題內容,開始準備一天的工作。小王是國內某綜合網站的編輯,他的工作成績與有多少人瀏覽了他的頁麵密切相關。在每年的評比中,他都能獲得很不錯的成績。他的秘密就是隻做熱點新聞。而獲悉哪些新聞是熱點新聞,就完全靠百度搜索風雲榜和搜狗熱搜榜了。

再看看另外一個人,網民老王。老王是一個音樂愛好者,他很喜歡看電視台的音樂選秀節目。最近,因為工作繁忙,他錯過了很多期的節目。而這天,當他無意間看到電腦屏幕上的搜狗輸入法照例彈出的每天的熱詞更新提示時,頭條顯示了“胡夏(首位內地星光大道冠軍)”,好奇的王先生毫不猶豫地點擊胡夏這個名字,於是瀏覽器打開了搜狗搜索引擎搜索出來的有關胡夏的各方麵的信息,其中第一條就是小王剛剛發上去的新聞。

如今,有越來越多的網民像老王一樣,由於點擊搜狗拚音更新的熱詞而直接鏈接到搜狗搜索關於該熱詞的查詢結果,實質上也就完成了一次搜索。搜狗熱詞本來是基於搜索結果以便用戶輸入的產物,但實質上是按期對網絡流行事件進行篩選,並通過熱詞更新提示(附簡樸注釋)的方式推送給用戶,因而具有了推薦時下熱門新聞的媒體屬性。比如因為工作繁忙一直沒有關注選秀節目的老王或許不知道“胡夏”是什麼意思,但括號內的注釋提示——內地首位獲得聞名選秀節目星光大道冠軍的歌手令王先生產生了搜索的興趣,而直接點擊這項熱詞無疑是最便捷的搜索方式。

這預兆著搜狗輸入法的真正價值或許是創造了一種不同於其他搜索引擎的搜索來源。對很多網民來說,他們過去關注網絡流行事件的渠道可能是逛論壇、看新聞網站,但現在大可以關注電腦右下角按期彈出的熱詞提示,再針對自己的愛好順手點擊,鏈接到搜狗搜索結果頁麵。而且,假如用戶點擊“更多熱詞”選項,頁麵就會跳到“搜狗熱搜榜”,這個榜單分門別類彙集了各類熱詞,活像一個超級迷你的新聞門戶。而對於小王這樣需要關注普通網民在關注什麼的職業人士來說,搜狗熱詞就像是一個標杆,能讓他的工作省心很多。

“百度搜索風雲榜”是小王經常查看的另外一個網頁,這個網頁有實時熱詞、七日關注、今日上榜等小板塊,分別反映出全國網民們正在百度上搜索著什麼、七天內最關注什麼、今天最關注什麼。根據這些資訊,小王可以結合搜狗熱詞來更好地製作每天的新聞內容。

2013年12月22日,百度2013搜索風雲榜在百度沸點晚會上新鮮出爐,中國網民在百度上整年的億萬次的搜索大數據以二十四大榜單的方式呈現出來,滲透政治、經濟、文化等社會生活方方麵麵。“天氣”一詞則登上“2013年十大熱搜詞”榜首,成為過去一年中國網民通過電腦和手機搜索點擊出來的第一熱詞。如果你是每次在百度賬號登錄的情況下使用的百度搜索,你還可以查看你這一整年在百度上搜索了哪些內容。百度還會根據你搜索過的詞來預測你屬於哪種類型的網民。這些都是百度基於大數據分析得出的結果。

搜狗擁有輸入法、搜索引擎,那些在輸入法和搜索引擎上反複出現的熱詞,就是搜狗熱搜榜的來源。通過對海量詞彙的對比,找出哪些是網民關注的。而百度的搜索引擎更是中國網民最常用的,百度搜索風雲榜的實時更新,正好給小王這樣的有心人提供了很好的資訊。這就是個人工作中對大數據的巧妙利用。

猿題庫的創業

李俊大學畢業後找了一份不太理想的工作,最近一年他一直想換個工作。思前想後,他最後決定報考國家公務員。於是,他開始準備公務員考試,在網絡上到處找相關資料。上個月,他找到了一個叫作“猿題庫”的手機軟件,並在猿題庫上注冊了自己的個人賬號。當他開始進行“行測”的第一輪測試時,他已經開始了自己在猿題庫的數據旅行。

和李俊一樣,其他20多萬人都通過這個軟件進行了“行測”的第一輪測試,每個人做的題目都是一樣的,總共15道題目,在他們答完後,係統會根據他們的得分情況給出第二套題,這第二套題涵蓋了前麵測試裏考生欠缺的考點。而第二套題的題目,則是大數據運算的產物。

猿題庫是一款非常成功的產品,上線不到3個月注冊用戶即超過20萬,答題總量達到2258萬次。這款產品之所以這麼受用戶歡迎,是因為它基於大數據而具備的智能化。它彙總了兩萬道題,每道題對應一個知識點和難度,係統會基於用戶留在題庫的數據,測量用戶對知識點的掌握程度,已經掌握的會有更難的題目挑戰,沒掌握的會用不同題目多次挑戰。係統會根據每個用戶的情況生成不同的試卷。

猿題庫聯合創始人兼產品技術總監郭常圳是這麼解釋第二套題的生成過程的:“因為第一套是從1500道題裏挑選15道題產生的試卷,完成後係統根據你練習的掌握情況,包括知識點、難度等,自動生成100套題,然後根據遺傳基因算法,兩兩適配,這個時候題目從100套變成200套,係統對200套卷子根據你的情況打分,過濾掉一半,從而留下100套卷子再進行打分評價,再兩兩組合並挑選得分高的一半試題,重複以上步驟100次。這樣幾乎是從一萬套試卷中產生一套你專屬的卷子。”也就是說,在第二套題產生的過程中,每個用戶的行為就是大數據運算的來源,用戶接受運算結果並繼續做題的同時,也給數據庫充入新的數據源。用戶做題越多,係統對他能力的評估就越精準,越能給用戶量體裁衣推送最合適的題目。這就像是玩一款遊戲一樣,你參與進來以後,通過你的做題表現,實際上形成了自己的做題進程,這個時候你就很難拋棄而要一直做下去,因為這裏有你的數據,這些數據對你認識自己的能力很重要。

不僅如此,這套係統還有啟發式的自我糾錯功能。比如,10個係統認定高分的考生都錯在同一道簡單題上,那麼後台將會自動提示“這道題答案可能錯了”,工作人員會及時對該題進行核查。也就是說,猿題庫的整體係統和算法並不是封閉和死板的,而是可以不斷優化,去彌補現在的遺漏之處。

猿題庫的創始人叫作李勇,他曾經做過好幾種成功的互聯網產品。作為天使投資人,李勇曾發起了陌陌、雪球財經、虎嗅網等項目,單就前二者的估值看,他已經算得上中國最成功的天使投資人之一。甚至有人把他和創新工場、雷軍係等相提並論,認為他們是同一層次的投資者。而他卻覺得做投資不是他想要的,創業倒是能給他更多的成就感。2012年4月他辭去網易門戶事業部總裁的職位後,和團隊做出了兩款在線教育產品,猿題庫就是其中一款。

猿題庫是一款定位公務員等職業考試的在線智能題庫,是他全力以赴的項目。看上去,這確實是一個很不錯的創業方向。2012年中國有200萬人報考公務員,40萬人參加司法考試,而應試教育的考題都有延續性,“做題”是很多高分考生的不二法門。這些考生對未來充滿期待,被公認是最有付費動力的“剛需”,有時就因為“可能會有用”的一本書或一次講課乃至一套“真題”花費上萬元。

既然前景這麼好,為什麼沒有很多公司進入這個領域呢?因為,這個創業方向看上去很美,但也很危險。很多公司曾經冒失地進入這個領域,最後虧得血本無存。他們之所以輸,主要是輸在體驗上。

李勇認為用戶的體驗十分重要,他花了很多心思在提高用戶體驗上。首先,他分析了過去已經存在的絕大部分題庫,發現每個題庫都或多或少地存在著問題:題庫覆蓋麵不夠,答案解析不全,且回答質量參差不齊,沒有標準化,等等。李勇很多的心思都花在了解決這些問題上。

猿題庫最大的優勢,在於它通過大數據的分析,給每個用戶量身定製了一套做題方案。還記得塔吉特關於大數據挖掘的經典案例嗎?掌握海量信息的商店甚至會比一位父親更先知道她的女兒已經懷孕。而備考題庫產品猿題庫的產品願景也與此類似:在考試方麵,它要做到比你自己更了解你,從而幫助你更有效率地練習。你哪道題不會,什麼地方有遺漏,它都會告訴你;如果你練習得夠勤快,它還可以告訴你,在尚未舉行的考試中,你能拿到多少分。

到現在,猿題庫已經非常成功,作為一個創業公司,它已經實現了收支平衡。現在,李勇把猿題庫視為一個大數據產品,把公司定義為一個大數據公司,他想到的要比現在所呈現的多得多。當然,既然把自己定義為大數據公司,李勇所想的仍然是數據的生意,他稱,猿題庫是個學習型產品,但是定位和教育測量有關,所以會利用所擁有的數據,嚐試和教育機構進行合作。

十七、生活中的大數據

量化自我的健康生活

焦亮是一個公司白領,他很喜歡使用手機完成各種事情。他的手機記錄下了各種數據。這個月,焦亮一共打了35個電話,平均每次通話14分鍾,根據手機顯示,最後一次電話他打了22分23秒。前天晚上,他搭乘地鐵去往天通苑,路上一共花了1小時11分,他手機上的秒表記錄了這個數字。這一周,他一共晨跑45000米,一個運動記錄軟件告訴他,這個記錄超過了90%的朋友。而手機上的多看閱讀告訴他,他一共讀了210本書,超過了98%的用戶。一款可以使用攝像頭測試心跳次數的軟件告訴他,他的心跳次數為62次/分鍾。他剛剛在微信上玩了一把“打飛機”遊戲,遊戲結果告訴他,他在所有好友排名中排在第二位……

以上是焦亮的手機記錄下的各種數據。一個小小的設備,居然能夠記下如此之多的數據,這在20年前是完全無法想象的事情。同樣的事情在世界每個角落發生著,懷孕的準媽媽使用一款記錄胎動次數的軟件記錄著胎動,一位老人使用一款倒計時軟件提醒自己按時吃藥,一位少女使用一個便簽軟件記錄下自己每天體重的變化……這些場景在生活中隨處可見,我們已經見怪不怪。

很多中國人都在以數字記錄著自己的日常生活,而美國人在這一方麵做得更多一些。最近的一項調查研究顯示,平均每10個美國人就有7個人按時記錄自己的身體數據,用來記錄身體數據的設備則多種多樣,比如大腦、紙筆、電腦、平板電腦、手機,等等。這項調查裏,大約有3000人承認,他們記錄最多的數據項是體重和飲食。另外有三分之一的人則記錄身體內部的各項數字——從血壓到睡眠到血糖。美國消費電子協會數據顯示,2012年美國健康市場是一塊價值700億美元的蛋糕。預計2018年以前,每一年都會有4.85億可穿戴設備麵向市場出售。而“關注人的可穿戴科技”公司Jawbone的估值已達10億美元,或者可能更多。

大數據時代,人們越來越習慣用數字來量化各種事情。在各類傳感器開始大量出現的今天,我們也越來越習慣用數字記錄自己的健康數據。2013年6月,百度聯合咕咚網推出了一款名為“咕咚手環”智能可穿戴式設備。咕咚手環支持運動提醒,還可通過記錄睡眠,在最理想的時刻將佩戴者喚醒。用戶可將該手環穿戴在手腕上,24小時監測每天活動量及睡眠情況,並能根據使用者睡眠深淺狀態,在應該叫醒的時間段中的淺睡狀態下通過震動來喚醒佩戴者。這個手環是首款基於百度雲開發的便攜式設備,它能與百度雲結合,用戶可以把運動手環中所記錄的數據實時彙總到百度雲端,隨時記錄查看。咕咚網與百度雲的合作還將進一步深入,藍牙體重秤、藍牙自行車碼表等一係列手機智能配件將會陸續推出。

咕咚手環就是一個很典型的使用傳感器量化健康的設備,目前這類設備還不夠普及,但在未來,這類設備將占據我們生活很重要的一部分,從咕咚網和百度雲的合作就能夠看出。

量化身體數據指的不僅僅是那些糖尿病人每天測量血糖以控製病情,更是一種普通人的生活方式。我們正在成為我們自己身體的科學家。一些數字的忠實信徒們,不僅記錄自己吃的每一口食物、走的每一步路,還將數據上傳雲端,與他人分享。如果說以往人們還是把自己的人生放進一個堆滿照片的小盒子裏的話,如今我們的人生已經散布在網絡世界和電子設備裏了。

不僅是健康方麵,連家庭關係也開始被量化。一位美國女演員受到一本書的啟發,決定將她和她丈夫的關係進行量化。她把婚姻比喻成一個夫妻雙方共同管理的銀行賬戶,而將促進關係發展的行為視為存款,導致關係緊張的行為視為取款。量化就這麼進行了下去:如果丈夫說了什麼不好的話,她可以從丈夫的賬戶裏取走30%,而如果她因為什麼不高興的事情和丈夫打起來,丈夫則有權取走她戶頭上的所有積蓄。反之,如果誰精心準備了一頓晚餐等,則可以獲得額外存款。她堅持記錄了好多個月,覺得受益匪淺。她自嘲地說自己其實是一個不怎麼有條理的人,卻深度迷戀讓一切結構化的想法。她和她丈夫都自稱“自我量化者”,並參與到量化自我的運動中。

量化自我一詞來源於《連線》雜誌主編凱文·凱利和加裏·沃爾夫,他們在2008年提出這個概念,用來借指那些不斷探索自我身體以求能更健康地生活的人們。5年後,成千上萬的量化自我運動的堅實擁護者開始在整個美國範圍內組織聚會,還有數百萬涉足量化自我的參與者也加入其中。不隻是那些將血糖數據從血糖控製器傳送到智能手表上的糖尿病人,也不隻是通過測量來控製每天攝入的黃油量的人,更多的是那些更有力地控製自我的人,他們每天記錄自己做了多少個俯臥撐、每天上班路上的時間有多長、跑步或者騎車鍛煉的頻率有多高,等等。還有一部分喜歡寵物的人,則試圖記錄他們寵物的日常數據。也有人將之用在嬰兒的身體數據監控中,比如檢測嬰兒的體溫還有活動。當然也有不少浪漫的自我量化者,比如那些每天為孩子拍一張照片以記錄他們長高數據的父母。這些以各種方式量化自我的人,共同組成了一個 “DIY 大數據時代”。

一定要追溯的話,量化自我其實很早就有了,比如寫日記記錄下當天的天氣和自己的心情就是一種量化自我的表現。而要像今天一樣大規模地形成運動,則完全依靠科技的幫助。在今天,各種傳感器大量出現、迅速普及,人們才大量成為自我量化者。

其實當今世界幾十億的人群,每天通過手機產生的地理位置、視頻、照片、聲音等信息都算是量化世界中的一部分。自我量化者自然也是在為大數據做貢獻。大數據與大小無關,它指的是如何用數據來產出新的東西。我們正在隨時隨地收集我們自己的呼吸以及心率數據——這是從前隻有大的調查研究室才能做到的,而如今這樣的數據正在爆發。

大數據的交通紅利

10年前,大學生李帥第一次來到北京旅遊。他帶著激動的心情,想參觀故宮、天壇、頤和園、圓明園和眾多的博物館。不幸的是,下火車後他和同伴走散了。兩個人都沒有手機,沒法聯係上,錢也在同伴身上,李帥傻眼了。同伴對北京很熟悉,所以此前李帥根本沒做什麼準備,他是想一路和同伴一起的。現在,他要一個人到他們定好的旅館與同伴會合。該怎麼辦呢?他一個人很費勁地研究著地鐵線路,好半天之後,他放棄了決定還是問路。北京的大爺大媽們很熱情地給李帥指路:“你往東走200米,在那個胡同那兒往南拐,再乘坐……”“你往北走,那邊有一個天橋,你走到天橋北邊然後往西,再坐……”李帥從來都不知道東南西北,麵對各位大爺大媽的熱情和不一致的指導,李帥還是不知道該怎麼辦。最後,李帥在報刊亭買了份地圖,終於解決了問題。

地圖真是一種非常有用的東西。李帥在地圖上查看了公交和地鐵的線路,順利地找到了旅館。地圖上,每條地鐵線路的顏色都各不相同,你還可以在上麵看到線路交叉的站點,如此一來,要知道在哪裏換乘,就很容易了。可以說,就因為一份地圖,弄清楚怎麼走路就突然之間變成了一件輕而易舉的事情。

10年後,李帥再次到北京旅遊。馬虎的他出行前又沒怎麼規劃,這次他有了經驗,一下火車就買了份地圖。他在地圖上找了很久,還是沒找到他要去的那個地方在哪裏。沒辦法,他直接叫了一輛出租車。出租車司機是個新手,碰巧李帥要去的那個地方他完全沒聽說過。李帥一聽急了,準備下車,司機卻毫不著急,讓他稍等。然後,司機不慌不忙地從口袋裏拿出手機,依次打開了GPS定位功能和百度地圖軟件,將李帥要去的地方輸入到軟件裏,軟件很快生成了一條線路,然後司機很順利地根據線路開到了目的地。

李帥的這兩次經曆,告訴了我們什麼呢?

第一次經曆,李帥開始雖然有大爺大媽給他指路,卻還是怎麼都搞不清楚路線,後來借助一份地圖就搞清楚了。因為大爺大媽非常口語化和個性化的指路,對於置身陌生城市的李帥來說,還是很難量化成具體線路,而地圖猶如一份完整的有關公交、地鐵、建築的數據,有著非常精細的描繪和統一的量化標準。隻要弄清楚了地圖是怎麼查看的,李帥找到旅館的可能性就大了很多。可是,為什麼第二次經曆,李帥還是拿著那份地圖,卻找不到位置了?因為隨著中國各地經濟建設的迅猛發展,各個城市的麵貌在迅速發生著變化,地名也一樣。可能一夜之間,很多老地方、老店鋪消失了,很多新地標、新建築誕生了,而地圖的發行,從勘察到印製,要經曆很多個環節。這些環節讓地圖永遠跟不上城市的變化。而出租車司機使用的百度地圖,和傳統地圖就完全不一樣,它是互聯網地圖。互聯網地圖具有實時性,哪個地方的線路和地名有了變化,網絡地圖上就可以直接呈現出來。