現在,出門前和路途中的人們,問路越來越少,很多人都直接通過手機地圖查詢到目的地的線路。而且,手機地圖已經越來越超出傳統地圖的功能定義。比如百度地圖,既具有查地點路線、衛星導航等幾乎“不值得一提”的常規功能,更具有一些超乎想象的便利功能,比如百度地圖可以告訴你附近哪裏有公廁、快餐、自助取款機、加油站,可以告訴你離你300米的某個商場正在舉行一場女裝三折特賣、樓下的餐廳在搞中餐六折大促銷、1000米遠的寫字樓裏有家公司在招聘員工、樓上有一套房子在招租、某某街道剛發生車禍並有某帥哥在現場發回的照片……
細加辨別,不難發現,百度地圖有一個非常重要的特質,這就是:百度是在做一個微地圖,以滿足用戶方方麵麵的需求,包括各種生活細節的服務。從總體功能上看,百度地圖不再著眼於地圖線路及覆蓋範圍,更不是側重於導航,而是用大數據來支撐細分的本地生活服務。
百度地圖相對於傳統地圖最大的優勢是什麼呢?答案自然是大數據。大數據是手機地圖的絕對優勢,數據量的大小,直接決定了地圖的詳細程度和能夠提供服務的多少。而且,百度處理的是全互聯網數據。目前,百度地圖擁有2億用戶、3500萬地標信息、420萬千米路網數據、344座城市衛星圖、500萬商戶數據……僅以導航為例,每天數十億次用戶的定位請求和響應,轉換成位置信息,實現了智能導航基礎上的生活服務本地化。作為最具優勢的主流生活服務平台,百度地圖已容納60餘家數據合作夥伴,提供500多萬生活服務類數據,日均定位請求超過35億次。在此背後,除了預訂酒店、電影票、餐館之外,還包括附近的團購、優惠、外賣等,用戶都能通過手機完成。
像百度地圖這樣借大數據為用戶提供便利的軟件還有很多,這些都是大數據時代給個人帶來的便利。人們將各種新的信息發布到各個大數據平台上,而更多的人在分享著這些數據帶來的便利。大數據時代,每個人都在創造著數據,每個人都在享受著大數據創造出的紅利。
十八、大數據致富之路
垃圾達人的數據挖掘
2013年,互聯網上有這麼一個真假難辨的神奇傳說:一名看上去很有想法很有追求的小夥子不知道怎麼想的,跑去應聘了上海高檔小區的物業管理。他的興趣好像並不隻在工作上,因為他經常在非工作時間跑到小區的垃圾堆裏。他不是餓極了找東西吃,而是拿著一把超市裏用的掃描槍掃描垃圾上的條形碼。不知道的人看到這裏可能以為他瘋了,誰會沒事拿著垃圾掃描啊?其實,這名小夥子是個有心人,他通過掃描各種包裝袋、包裝盒上的條形碼,整理出了很多有用的數據。比如這個小區居民大多喝什麼水,這個就可以通過他掃描過的礦泉水瓶看出。同理,小區居民愛吃什麼牌子什麼品類的油、買什麼價位的衣服等數據也都被他收集到手。最後,他將整個小區的消費種類和品牌偏好都了解清楚了,形成了一份非常詳細的報告,並賣給了期望得到這些數據的某相關公司。這份報告,給他帶來了幾十萬元的收入。
看上去這真像一個天方夜譚的故事,但在大數據時代裏,這樣的故事隻會越來越多,直到我們對此習以為常。這個傳說是真有其事還是隻是杜撰,我們無從知曉,但小夥子的這套方法確實是行得通的。生活中條形碼處處可見,這個條形碼對於廠家和商家來說很有用,可以方便管理,但一般個人很少想過如何能夠用上它做點什麼。如何在海量數據中,遴選出有用數據,這是一個巨大的商機。有些企業需要這樣的調查報告,而有人能提供這樣的報告。這就是大數據時代的商機。這個故事描述了我們正在進入的大數據時代裏的新商機。這個把垃圾變廢為寶的小故事隻是當下大數據時代中的一個縮影,以後這樣的“垃圾達人”還將不斷產生。
2008年,阿裏巴巴的業績開始爆發式增長。也就是這一年,阿裏巴巴通過對網上交易數據進行分析,成功預測到了即將到來的全球金融危機,並提前將這個結果告知了客戶,這一舉措使很多客戶都成功避免了金融危機的衝擊。不過那時,了解大數據的人還很少。2013年則被公認為世界的大數據元年,這一年裏,數據出現井噴,各行各業的管理者都在討論大數據。哈佛大學社會學教授加裏·金說:“這是一場革命,龐大的數據資源使得各個領域開始了量化進程。無論學術界、商界還是政府,所有領域都將開始這種進程。”而在未來,數據將會像土地、石油和資本一樣,成為經濟運行中的根本性資源。在小數據時代裏,我們都認為信息是個好東西。但是在大數據時代,信息爆發式增長,給存儲、管理和分析信息的人帶來巨大壓力。在大數據時代,無論是個人、企業還是政府,都麵臨著如何管理和利用信息的難題。與此同時,隨著數據數量的彙集,數據的管理和分析工作變得格外重要。數據的價值正在成為企業成長的重要動力,它不僅提供了更多的商業機會,也是企業運營情況及財務狀況的重要分析依據。如果我們平時做一個有心人,也不難從各種看似不起眼的數據中發現數據。
有一個小段子說,一個互聯網公司的數據分析師下班回家,電梯裏遇到保潔員阿姨。兩人打了個招呼後,保潔員阿姨淡淡地問道:“最近你的壓力大了不少吧?”數據分析師心裏一驚,心想:“難道她知道老板找我談話的事?不可能吧……”於是帶著懷疑問保潔員是怎麼知道的。保潔員阿姨淡淡一笑,回答說:“你們這幫人中,就你一個人抽黃鶴樓牌的煙,我發現這幾天黃鶴樓的煙屁股多了不少,就這麼猜測了。”數據分析師深感佩服,不由感歎道:“高手在民間啊,少林掃地僧啊,阿姨簡直是神一樣的存在!”
這個小段子跟大數據沒什麼關係,卻跟數據分析有點關係。同樣是垃圾,一點小的線索也能讓保潔員阿姨做出正確的判斷。可見,數據是隨處可見的,隻要是有心人,哪裏都能夠進行數據分析。在大數據時代,我們能夠感受到更多數據的存在,隻要我們能轉變思維,就算身在垃圾堆,也能變廢為寶。
賣掉自己的大數據
大數據時代,很多公司都在致力於海量數據,並分析用戶的消費模式、生活習慣、地理位置等信息,以求進行更精確、更迅速、更智能的營銷。而在一些用戶看來,這些公司如此行為無異於把用戶當作不斷生產羊毛的羊,它們所做的是把用戶產生的數據收集到一起,而最後產生的利潤卻跟用戶一點兒關係都沒有。對於這些行為,他們表示不能接受。一位居住在紐約布魯克林的軟件開發者費德裏科· 薩內爾就是其中之一。
2012年,美國的互聯網廣告行業產值接近300億美元,而薩內爾覺得,他每天都上網看視頻、看廣告,但是自己貢獻了那麼多居然沒有得到一毛錢的回報,反倒讓廣告公司賺翻了天。薩內爾表示:“那些公司在用我的數據賺錢,當你使用它們的產品時,它們在獲取你的數據。最後,它們賺了幾十億美金而我卻一毛錢都沒得到,這不公平。”根據預測,在2013年,美國的互聯網廣告行業產值將超過4000億美元,於是薩內爾決定在這趟熱潮中淘點金。於是,薩內爾在一個眾籌網站上發起了一個項目,他從2月份起便開始收集自己所有的數字軌跡,從網站到聊天記錄到照片到GPS數據,到5月份的時候,已有7GB數據。根據薩內爾自己的統計,7GB的數據中一共有280萬行文本信息(包括他所訪問網頁中的所有HTML、CSS、JavaScript代碼),算下來有1500本書。軟件記錄的鼠標點擊次數75.5萬次,並排所有鼠標指針的像素長度為2英裏261英尺。電腦攝像頭自動拍照2.1萬張圖片,總計1.9GB容量以及約2萬張屏幕截圖。從其用GPS記錄的地理位置信息來看,他在這3個月所行走的距離為1.9萬英裏,地理位置信息包括經緯度、高度、街道名號、城市、郵編和國家。他準備把積累了3個月的隱私數據賣掉,而且已經成功炒到了1100美元,合計下來,每GB的隱私數據要賣1000多塊錢。從薩內爾的價目表來看,一天的所有隱私數據售價為2美元,而這3個月的所有數據的售價為200美元。花2美元你可以得到70個網站記錄,500張屏幕截圖,500張視頻截圖,一份GPS數據,一份應用程序使用記錄,外加所有的鼠標運動軌跡。
薩內爾的意思很明顯,與其讓那些大公司販賣我的數據賺錢倒不如我自己把自己給賣了。在他的Kikstarter頁麵上,薩內爾寫道:“如果大家都像我這樣做的話,我想那些賣家們就會直接向我們購買私人數據了。我知道這聽起來很傻,可是把這些數據拱手讓人也挺傻的。”薩內爾並不是第一個有這種想法的人。問題是,單獨或者極少量的數據不具備研究價值。因此那些大公司總是大量且長期地購買這些數據,這也是為什麼臉書和穀歌能這麼值錢了。
有一個問題擺在我們麵前,大數據究竟是服務於個人還是服務於商業呢?如果是服務於個人的話,服務商收集用戶數據無可厚非,用戶拿不到任何報酬也毫無怨言。但是如果服務商收集了用戶的數據之後再去為其他商業活動服務的話,服務商是不是應該根據用戶隱私數據的貢獻程度來對利潤進行分成?
數據,產生於用戶,又服務於用戶,獲益的也是用戶。但是擺在台麵上的是廣告商、服務商從基於用戶行為而獲取到的大數據中獲利最多,賺了最多的錢。薩內爾的舉動在大數據時代具有標杆性的意義。大數據是一座金礦,而金礦並不是憑空產生的。金礦的製造者正是每個身處大數據時代的人,當很多公司去采集大數據這個金礦賺得盆滿缽滿時,提供金礦的人們卻沒有分到應有的紅利。當越來越多的人開始關注自己生活中產生的“大數據”,開始關注自己的隱私數據是不是免費提供給一些公司贏利時,我們將享受到的數據紅利也將越來越多了。
十九、大數據幫助政府決策
世紀選舉的背後
2012年,美國總統奧巴馬仰仗其大數據分析團隊,擊敗競爭對手成功連任。這個故事充滿了戲劇性元素,讓好奇的人們想知道,到底大數據在選戰裏起到了怎樣的作用。
最近一屆總統選舉前,奧巴馬的政治前途撲朔迷離,充滿變數。從政績上來看,經濟危機的艱難局麵,讓在任總統沒法將美國全國的失業率控製在74%以下;從選戰的過程來看,競爭對手羅姆尼的演講水平也相當高超,公開辯論中二人難分伯仲;從對民眾要求變革的呼應來看,臨選前的民意調查,多數被調查者認為對手關於未來的見解更令人欣賞;從曆來決定勝負的競選燒錢來看,對手花去了4億美元,而奧巴馬全程支出僅為3億美元。奧巴馬要繼續留在白宮,似乎非常困難。但最終他還是以332票∶126票領先對手羅姆尼,在不被看好的情況下贏得選舉。
奧巴馬贏得選舉不是靠運氣,而是仰仗其背後成效卓著、以數據分析見長的競選團隊。奧巴馬團隊中競選總指揮吉姆·梅西納表示,在整個競選過程中,沒有數據作為支撐的活動根本不存在,而對多種來源的數據進行搜集、整理、分析和運用,確保了以證據為基礎的決策。
奧巴馬團隊的數據專家們在連任競選前兩年就開始收集大量數據,將民主黨零散的選民數據庫彙總在一起。在考量了重要性和費用支出的前提下,奧巴馬團隊的數據專家們針對目標選民和擬開展的活動,開發了不同的預測和分析模型。如對每一個群體的選民都進行建模,進而預測他們的捐款途徑。模型可以根據實際情況進行動態調整,以提高分析的精準性。如在俄亥俄州,數據分析專家獲得了約29萬人的投票傾向數據。這是一個包含1%選民的巨大樣本,使他們可以準確了解每一類人群和每一個地區選民在任何時刻的態度。當第一次電視辯論結束後,選民的投票傾向發生改變。由於數據分析專家的支撐,奧巴馬團隊可以立即知道什麼樣的選民改變了態度,什麼樣的選民仍堅持原來的投票選擇。在競選過程中,接觸目標選民並說服他們非常關鍵,廣告是非常重要的途徑,而要讓每一筆廣告費用的花費都物盡其用,就離不開數據的支持。奧巴馬團隊的一名成員表示,他們可以通過複雜的數學建模來找到目標選民。
在連任競選中,奧巴馬團隊充分信任數據分析,恰到好處地利用各種場合來爭取選民。在每一次動員活動和公開辯論前,奧巴馬團隊都能根據受眾的特點,選取其最關心的議題,精心準備、博得支持。動員渠道和互動方式的選擇也為目標選民量身定做。如奧巴馬決定在社交新聞網站Reddit上回答問題,當時很多人弄不明白原因。一名官員坦承:將奧巴馬放在Reddit上,是因為發現很大一部分目標選民在Reddit上。通過分析發現,在競選雙方拉鋸僵持的各州(搖擺州)的電話參選動員上,來自“搖擺州”的奧巴馬競選誌願者,他們打給目標選民請求支持的電話效果優於非“搖擺州”誌願者打去的電話,助選策略隨之調整。越來越多的選民因為奧巴馬與他們心意相通的親密接觸,而果斷地選擇他作為新一屆領導人。
奧巴馬團隊對社交網絡等信息平台的運用也很成功。類似於我們身邊企業“掃樓式”營銷,奧巴馬團隊在Facebook上開展了大規模的投票動員活動。在競選衝刺階段,下載一款應用的用戶會收到多條消息,其中包含他們一些好友的照片,而這些好友來自“搖擺州”。這些用戶接到通知,隻要點擊按鈕,就可以呼籲這些好友作為選民采取行動支持奧巴馬。這一舉措效果很好,由於呼籲來自熟人,大約1/5收到Facebook請求的“搖擺州”選民作出了響應。Facebook準確、快速的推薦算法,為奧巴馬連任助了一臂之力。
在競選資金的爭奪上,奧巴馬團隊切實依靠數據分析也顯得頗具章法。奧巴馬與對手羅姆尼都獲得了差不多10億美元的籌款,但其網絡籌款是對手的兩倍之多。奧巴馬團隊籌得的最初1億美元中,98%來自少於250美元的小額捐款,而羅姆尼團隊這一比例僅為31%。由於從廣泛數據來源中獲取的洞察力,奧巴馬團隊的競選活動與廣大的草根階層選民也開展了有針對性的互動,因而贏得了他們的支持和捐款,既贏得人氣又籌到了款項。
舊數據的新用途
各國政府在多年的政府服務中,積累了不少各方麵的數據。這些數據有些是幾十年前的,有的甚至有數百年曆史。那麼這些數據除了偶爾被曆史學家們考證使用外,還能派上其他用場嗎?答案是肯定的。
人們在看待數據時,常常會犯一個常見的錯誤:他們喜歡新的數據,認為新的數據更及時、更全麵,而那些陳舊的數據,似乎沒什麼用處。而事實遠非如此。很多舊的大數據裏,也蘊含著不少我們沒有發覺的金礦。這些數據被整理分析後,一樣能讓人們得到非常有用的信息。
美國著名的攝影師和出版人裏克·斯莫蘭是一個有趣的人,他做了許多跟大數據有關的攝影項目,其中有一個項目叫作“大數據人類麵孔”。這個項目啟動的一個為期8天的“測量我們的世界”活動,邀請全球各地的人們通過智能手機實時地分享和對比他們的生活。其中,有一張照片是裏克·斯莫蘭和一位計算機科學家、一位心髒病學家兼計算生物學家站在一堆廢棄的心電圖數據紙帶中。這兩位專家和另一位計算機科學家組成的3人團隊創建了一個全新的計算機模型,它可以用來分析那些曾經被丟棄的心電圖數據,從中發現被忽視的心髒疾病複發信號,並能大大改進今天的心髒病風險篩查技術。
對於很多人來說,那些已經過時的心電圖數據是毫無價值的,所以那些數據紙帶完全就是一堆廢紙。可是,聰明的科學家們就是對那些廢紙裏的數據進行分析,才得到振奮人心的科研成果的。
不僅是科研方麵需要陳舊的數據,其他方麵一樣可能需要。
比如商業領域就曾有這麼一個例子:一家石油勘探公司有一個新係統可以提供尼日利亞的3D地質數據,但是該公司沒有太多的文件數據庫以供這個係統來進行深度分析。一位存儲管理員記得某處存有大量的舊圖片,然後他通過一個商業智能分析工具來分析這些數據是否可以用於新係統——盡管在數據格式上有很大的差異。結果這家石油勘探公司可以將數十年的舊數據導入新係統。這些舊數據與新的材料交叉分析,幫助這家公司取得了幾項重大發現。
以上是科研和商業方麵的應用。而在政府服務方麵,美國政府就有一個很好的反麵的例子。
朝鮮戰爭爆發前8天,美國民間谘詢公司蘭德公司通過秘密渠道告知美國對華政策研究室,他們投入了大量人力和資金研究了一個課題:“如果美國出兵朝鮮,中國的態度將會怎樣?”而且第一個研究成果已經出來了,雖然結論隻有一句話,卻索價500萬美元。當時美國對華政策研究室認為這家公司是瘋了,他們一笑置之。但是幾年後,當美軍在朝鮮戰場上被中國人民誌願軍和朝鮮軍隊打得丟盔卸甲、狼狽不堪時,美國國會開始辯論“出兵朝鮮是否真有必要”的問題,在野黨為了在國會上辯論言之有理,急忙用280萬美元的價格買下了該谘詢公司這份已經過了時的研究成果。研究的結論隻有一句話,“中國將出兵朝鮮”,但是,在這一句話結論後附有長達600頁的分析報告,詳盡地分析了中國的國情,以充分的證據表明中國不會坐視朝鮮的危機而不救,必將出兵並置美軍於進退兩難的境地。並且,這家谘詢公司斷定:一旦中國出兵,美國將以不光彩的姿態主動退出這場戰爭。