舉個例子,你用穀歌搜索某一個餐廳,網頁上可能會出現你的朋友“張某某”、“李某某”等在這一餐廳用過餐後點了“讚”或是作出其他評價,而且“張某某”、“李某某”都是實名製的,他們的頭像也赫然在目。然後,你會對這個餐廳很有感覺,你可能也會依照朋友們的評價來做出一些消費選擇。這樣一來,“張某某”、“李某某”無形中就為這家餐廳做了廣告,成為其形象代言人,甚至有一天,他們還可能得到一些廣告費的分成。
如果你是“張某某”或“李某某”,你是否真的願意做這樣的廣告,把自己的行跡暴露給其他人?即使廣告的對象是自己的朋友,你可能也不是每一次都願意無條件分享的。更何況,對你來說,你可能根本記不得以往在哪些地方留下過“到此一遊”的墨寶,天知道這種廣告會出現在哪裏,又會被哪些人看到。
不過,穀歌也做出解釋:是否參與“共同代言”,其實是用戶自主選擇的。隻不過,用戶如果不修改自己共享的批準設置,就是默許穀歌在廣告中使用用戶的各類信息。
即使如此,穀歌的這一新廣告政策還是遭到 “侵犯用戶隱私”的質疑。美國電子隱私信息中心主管馬克·羅特伯格也指責穀歌新廣告將網絡用戶照片等信息商品化有失公允,他同時呼籲美國聯邦貿易委員會介入調查評估。穀歌用戶們更是紛紛表示抗議,據外媒報道,短短時間裏,許多Google+用戶已經把自己的個人簡介照片替換成施密特的照片,一旦穀歌決定在廣告中使用用戶的照片,這些照片顯示都將是施密特本人。
如果說穀歌新廣告政策是將用戶信息直接拿來為己所用,侵犯了用戶的個人隱私,那麼,在當下這一個大數據時代,幾乎所有線上的商業行為本質上都是通過對用戶個人隱私的洞察或利用來獲取商業收益的。
我們每一個人在網絡上的一切行為,都可以被服務方知曉。當我們瀏覽某一個網頁、發了條微博、逛了逛某個社交網站抑或是進行了一次網絡購物,等等,所有的舉動實際上都被網絡以數據的形式記錄下來。而基於對這些數據的綜合分析,穀歌可以清晰地掌握你的網頁瀏覽習慣,而亞馬遜、淘寶等電商十分了解你的購物習慣,微博、微信等則似乎什麼都知道,包括你的社交關係網絡。除此之外,還有網絡地圖和定位,更是能夠實時監控你的行蹤。
這些所有的“你”的信息,原本都是個人隱私,如今卻成為互聯網商家們的“庫存”數據。商家們可以隨時拿來識別“你”,並對你進行商業價值的挖掘。穀歌新廣告的做法隻是其中之一,商家們基於大數據的所謂精準營銷則是更普遍存在的隱私利用形式。
比如,你在某個社交網站上偶然提及某種產品或服務,這類型的產品或服務就能主動找到你;又如,你想要網購一雙雪地靴,在某個電商網站上瀏覽過該類產品,那麼相關的雪地靴介紹或者購買的鏈接就會在未來一段時間內不斷推薦給你;再比如,你僅僅是通過網絡地圖搜索過某一個餐廳的地址,你可能都沒有想過去消費,但關於餐廳的介紹或是其各個時段的促銷優惠信息就會定期推送給你,這其中自然還包括穀歌新廣告所涉及的好朋友代言。
這些商家的做法,看似更懂消費者,能夠直達消費者,但這何嚐不是對消費者隱私的一種侵犯呢?“大數據時代,幾乎沒什麼隱私可言”,說得一點都不為過。你是誰,你在哪,你的喜好,你的消費習慣,你此刻想要做什麼……大數據都能給出準確的或接近準確的答案。對於互聯網企業來說,基於大數據資源去掌握更多的用戶隱私,才能迅速占領更多的市場份額。甚至有業內人士將互聯網的下一輪競爭直白地定義為“隱私之戰”,用戶的隱私就是核心競爭力。
業內人士坦言,大數據時代要保護個人隱私,讓用戶個體的隱私不泄露,在技術上很難做到。我們唯一能夠而且必須要采取的措施,就是讓這些用戶的個人隱私不被無良商家、非法機構惡意地使用。一方麵,這需要政府和行業監管機構加強監管,但凡發現有惡意使用用戶隱私並且給用戶造成傷害的商家,就要給予嚴厲的懲罰。
未來的福爾摩斯
小說裏的神探,不管是福爾摩斯、波洛還是狄仁傑、柯南,都有一個共同的特點,就是有一個具備強大分析能力的大腦。他們能夠觀察到細小的證據,並把這些證據關聯,分析出犯罪事實。一個比較殘酷的現實是,神探幾十年出一位,罪犯卻天天在行動。幸運的是,最新的大數據分析工具正在將每一位普通警員都變成神探,甚至能預測犯罪。最新的案例顯示,大數據在警務中的應用已經收到了良好的效果。
作為美國警界最早的大數據預測分析試點單位,聖克魯斯警察局通過城市大數據預測犯罪地點和時間。大數據分析可以幫助警察分析曆史案件,發現犯罪趨勢和犯罪模式,找出共同點和相關性,通過分析城市數據源和社交網絡數據,甚至能預測犯罪。過去需要幾天、幾周甚至幾個月的數據資料分析,在最新的警用Hadoop大數據分析係統中幾個小時內就能完成,從而大大提高了警察辦案的效率。
警方使用的大數據分析工具,可以幫助分析人員采集和分析文本、圖像以及其他信息,還可以進行文本提取、案例組織等工作。此外,它的協同工具還可以避免重複的工作以提高效率。它的聯合查詢和模糊查詢的功能可以讓用戶在即便拚錯單詞的情況下,以一個查詢語句訪問不同的數據庫。
據國外媒體報道,美國孟菲斯市警察局采用Blue CRUSH預測型分析係統後,過去5年暴力犯罪率大幅下降。最近美國馬裏蘭州和賓夕法尼亞州也采用了一種能極大降低凶殺犯罪率的犯罪預測軟件,不但能預測罪犯假釋或者緩刑期間的犯罪可能性,還能成為法庭假釋條款和審判的參考依據。例如,用軟件分析發現14歲第一次殺人比30歲第一次殺人的罪犯更容易再次行凶,因而調整假釋條款。
大數據在查案辦案方麵將能夠起到非常重要的作用。一個能夠對犯罪案件相關大數據進行數據分析的人,便是未來的福爾摩斯。
每個人都知道,一個人在犯罪前,無論大腦裏有過多少有關犯罪的預謀,都不構成犯罪事實。而在斯皮爾伯格導演、湯姆·克魯斯主演的電影《少數派報告》裏描述了這麼一個時代:隨著科技的高度發展,人類發明了能偵察每個人的腦電波的機器人“先知”。“先知”能偵察出人的犯罪企圖,所以罪犯在犯罪之前就已經被犯罪預防組織的警察逮捕並獲刑。這一點與大數據時代的預防犯罪有共通之處。這不禁讓我們思考:在大數據時代,究竟怎樣才是真正的犯罪?
IBM的一則廣告片講述數據分析如何幫助警察在罪犯作案前趕到現場預防犯罪,可以說電影《少數派報告》的現實版正在上演。作為警用大數據市場的重要廠商,IBM的SPSS預測分析軟件以及 i2 COPLINK數據庫應用軟件可以提供數據整合數據分析,以及數據可視化功能。通過這些軟件,可以進行數據集中管理,幫助警方不同部門協同工作,並可以幫助發現犯罪線索。在美國南卡羅來納州的查爾斯頓,警方利用IBM的數據分析工具幫助當地的400多名警察更加準確地進行犯罪模式的分析。根據IBM的說法,警方利用分析預測工具進行警力調配,發現犯罪熱點地區提前預防犯罪發生,從而降低了當地的發案率。在美國,從紐約到洛杉磯,有越來越多的警察局在計劃或者開始部署大數據分析工具。很多警察局認為,大數據分析工具從長期來說可以加速辦案效率,優化警力資源分配,從而提高社會和公眾安全水平。
在這兩個案例裏,警察還是在遵照現實生活中的邏輯:沒有行動的犯罪不能定罪。如果大數據分析到非常精準的程度,甚至可以算出某人在某個時間犯罪的概率有多大,事情會不會發生變化呢?比如大數據分析顯示,某個人某天深夜可能在家謀殺他的妻子,可能性高達99%。警察該如何去預防犯罪呢?如果他們相信大數據分析的結果,他們就要高度監視這個人或者在危險將要發生的時候破門而入,這都是有風險的。前者是沒有證據而假定一個人會犯罪而去監視,侵犯了個人隱私;後者則難度很大,破門而入的時機早了,犯罪還沒有任何跡象,則是警察侵犯了個人安全,如果時機晚了,犯罪已經發生,警察的責任則更為嚴重。
未來到底會怎麼發展呢?誰也不知道。我們還身在大數據時代的前奏曲裏,隻能慢慢隨著這個壯麗的曲子走下去,看看之後這些到底會怎麼發展。
算法不能代替判斷
有個笑話是這麼說的:3位統計學家去郊野打獵。他們發現了一隻兔子。第一位統計學家率先開槍,結果沒打著,子彈大約往左偏移了一米遠;第二位統計學家開槍射擊,結果還是沒打著,子彈大約往右偏移了一米遠;第三位統計學家大喊道:“我們逮住它了!”
你發現這個笑話的笑點了嗎?這個笑話的笑點在於嘲諷“平均數”,一個往左偏移一米,另一個往右偏移一米,平均算起來就是正好打中了。這個笑話的荒謬之處如同“你家有100平方米的房子,鄰居家有1000平方米的房子,你們兩家平均住著550平方米的房子”。也許你不覺得這個笑話可笑,但是你可能會發現,現實生活中許多的人就是在這麼計算的。你不能說他們的計算是錯誤的,但顯然得出的結論是毫無意義的,或者說得出的結論是用來蒙蔽真相的,就像喬布斯曾和比爾·蓋茨說“比爾,我們兩個人統治了全部的電腦操作係統”。比爾·蓋茨微微一笑,什麼都沒說。要知道,全世界90%的電腦都使用微軟的windows係統啊。因此,喬布斯這句話在知道底細的人看來是非常“自抬身價”的。
大數據的世界裏,計算機要處理和分析相當龐大的數據,這些數據如何被處理、分析,用著怎樣的算法,最終會得出怎樣的結論,這一點是可疑的。如果在大數據的處理分析中,算法師使用的是一個如同上文中統計學家的算法一樣的算法,那麼大數據呈現給我們的數據可能會讓我們對現實情況產生誤判。
不僅是算法,數據本身的采集可能也是有問題的。就像新聞報道中文字遊戲非常普遍,這也可能對大數據本身產生影響。例如,某廠的利潤第一年為0,第二年為100萬,第三年為200萬,今年(第四年)利潤為250萬。我們可以有很多方式來報道這個新聞:某某廠今年利潤增長25%;某某廠今年利潤增速降低50%;某某廠平均每年利潤為137.5萬元;某某廠利潤增長漸趨穩定……這麼多種表述方式沒有一個是錯誤的,可是帶給我們的感覺卻完全不同。
我們或許可以在內特·希爾的著作《信號與噪音》中找到這些問題的精彩答案。希爾引用了菲利浦·泰洛克對專家意見所進行的經典研究。這項研究顯示,數量多得令人不安的專業領域的“專家”在預測可能結果方麵的表現往往差得離譜。此外,專家們往往對其預測的質量過度自信,簡言之,專家意見時常獲得兩個世界的最差結果:以妄自尊大的態度給出了錯誤答案。這不是成功的秘訣。
從IBM的超級電腦“沃森”、穀歌的搜索算法到亞馬遜網站的推薦引擎,數據驅動的計算係統無疑能夠獲得非凡的成功,特別是當它們專注於現實生活測試而不是抽象理論的時候。希爾說:“真正像穀歌一樣懂得大數據的公司並沒有將大量時間花在構建模型上。這些公司每年從事數十萬次實驗,在真實的顧客身上測試自己的想法。”
從希爾的書裏我們可以得出一個頗具諷刺意味的結論:一個人獲得的數據和事實越多,預測就越有意義,人的判斷也就顯得愈發重要。這好像不是我們想要的答案。我們希望能夠通過大數據分析直接告訴我們結果,告訴我們該怎麼做,盡量減少我們的判斷,而事實上,我們的判斷變得越來越不可或缺。
沒有隱私的世界
2013年6月,一本名為《1984》的書突然間火了起來,亞馬遜網上書城記錄,這本書的銷量增長了70多倍,在24小時裏甚至漲了500多倍。這是怎樣的一本書?推動銷量增長的原因又是什麼呢?
《1984》是英國作家喬治·奧威爾創作的一部政治諷刺小說,小說創作於1948年,出版於1949年,已經被翻譯成至少62種語言。它與1932年英國赫胥黎的《美麗新世界》以及俄國尤金·紮米亞金的《我們》並稱“反烏托邦的3部代表作”,通常也被認為是政治小說文學的代表作。書中講述了一個令人感到窒息和恐怖的以追逐權力為最終目標的假想的未來極權主義社會,通過對這個社會中一個普通人溫斯頓·史密斯的生活描寫和對抗無時無刻不在監視著他的“老大哥”最後完全失敗的命運,投射出現實生活中極權主義的本質。《1984》曾在某些時期內被視為危險和具有煽動性的,並因此被許多國家(不單是有時被視為采取“極權主義”的國家)列為禁書。本書被美國《時代》雜誌評為“1923年至今最好的100本英文小說之一”,此外還在1956年、1984年改編成電影上映。
《1984》對英語世界產生了意義深遠的影響,書中創造的一些術語和小說作者已經成為討論隱私和國家安全問題時的常用語。比如“奧威爾式的”形容一個令人想到小說中的極權主義社會的行為或組織,而“老大哥在看著你”(BIG BROTHER IS WATCHING YOU,小說中隨處可見的標語)意指任何被認為是侵犯隱私的監視行為。這一次,這本離第一次出版已經過50多年的舊作,是因為一個叫作愛德華·斯諾登的人而火起來的。
愛德華·斯諾登是一個美國人,生於1983年,曾是美國中央情報局技術分析員,後供職於一個國防項目承包商。2013年6月,斯諾登把美國國家安全局關於“棱鏡”監聽項目的秘密文檔披露給《衛報》和《華盛頓郵報》,很快,他被美國政府通緝。斯諾登早就預料到會是這樣,所以事發時人並不在美國,而是在香港,隨後他飛往俄羅斯並獲得為期1年的臨時避難申請。後來,斯諾登又向全世界披露了很多轟動性的信息。2013年12月11日,美國《外交政策》雜誌評選美國國家安全局承包商前雇員斯諾登為2013年全球百名思想家榜首。
斯諾登第一次披露美國國家安全局如何從技術公司獲取電話記錄和數據以後,奧威爾的《1984》銷量就開始不斷上升。很明顯,人們由這次事件聯想到《1984》裏描寫的世界。這個世界裏,美國國家安全局就像書中的老大哥一樣盯著你,毫無隱私可言。無論是美國人還是其他各個國家的人,很多人都像看影視劇一樣關注著這件事情的發展,卻不知道有一個比美國國家安全局更為強大更為隱秘的存在在窺探著我們的隱私。這就是大數據。相比起美國國家安全局,大數據更像老大哥。
一些公司正憑借手中規模迅速增長的個人信息,利用各種新型數據分析方法和人工智能來進行產品和服務決策,乃至預測客戶的需求。穀歌首席執行官拉裏·佩奇表示,他眼中的理想技術就像“一名高度智能化的助手,為你做各種事情,免得你自己操心”。是的,技術可以為我們做很多事情,比如在不久的將來我們可能看到這樣的場景:在我們起床前就有智能電飯煲已經為我們做好飯,洗漱完畢後打開手機看看它為我們怎麼規劃好的日程安排,坐在駕駛位置喝茶任憑穀歌無人汽車自動駕駛帶我們去目的地……這種生活確實讓人向往。但是,有多少人知道我們可能為這樣的生活承擔了多大的風險,付出了多大的代價呢?
多數人可能沒有意識到,自己每天製造了多少數據,以及一些大數據企業用以利用這些數據的科技已經發展到怎樣的地步。技術發展如此迅速,兩年前還不可想象的事情如今已變得稀鬆平常。當你使用錯誤的關鍵詞在搜索引擎上搜索時,搜索引擎會猜測到你實際想搜索的關鍵詞,這不就是一種預測嗎?實際上,大數據分析的預測功能比這個要強得多。哈佛大學教授拉塔尼婭·斯威尼的研究顯示,隻要知道一個人的年齡、性別和郵編,並與公開的數據庫交叉對比,便可識別出87%的人的身份。而在大數據時代,通過分析用戶4個曾經到過的位置點,就可以識別出95%的用戶。社交網絡和互聯網公司收集的數據呈現出很強的身份特征。大數據公司之所以非常強大,是因為它們能夠將客戶的個人信息與他們的行為特征結合起來,從他們購買了哪些商品到他們身在何處。這可以幫助企業非常精準地猜測到用戶可能存在的需求。你在那些公司的分析下完全沒有任何隱私,就像裸體站在他們麵前。
世界經濟論壇的一份關於個人數據的報告裏說道:“推測數據可能像一個無所不知、盯著監控攝像頭的‘老大哥’。”大數據分析本身沒有任何危險和過錯,但如果一些數據被用於特定的、不懷好意的目的,我們如何防範?大數據時代才剛剛開始,未來,誰也說不好會不會出現一次因為大數據分析導致的信任危機。一旦有因為大數據分析造成的嚴重的隱私泄露事件爆發,大數據分析可能就像今天的美國國家安全局一樣,失去人們的信任。大數據有許多值得我們驚歎的地方,但我們要學習掌握好它,利用好它,不讓它成為“隱私殺手”,可能還需要很長的時間。
計算機的危機
高登·摩爾,1929年1月3日出生於美國加利福尼亞州舊金山,他是仙童公司的創始人之一,也是英特爾公司的創立人之一,同時還是大名鼎鼎的“摩爾定律”的提出者。這幾十年來,計算機計算能力的增長一直遵循著摩爾定律,而這樣的增長給大數據的發展帶來了機遇。
1965年的一天,《電子雜誌》寫了一封信給摩爾向他約稿,希望摩爾能為他們寫一篇關於半導體工業未來發展的文章。1965年4月19日,《電子雜誌》上刊發了一篇名為《Cramming More Components Onto Integrated Circuits》的文章,在這篇文章中摩爾總結了過去幾年集成電路的發展情況,然後大膽預測了半導體工業的發展速度:由於晶體管工藝的提高,晶體管體積逐年減小,集成電路的整合度每年都會翻一番,也就是說半導體元件的性能和功能將會以幾何數字逐年遞增並且一直持續下去。這就是在以後的40年中神奇地支持著半導體工業發展的摩爾定律。後來,廣為人知的18個月的說法是時任英特爾公司主管的大衛·豪斯的說法。
1975年,摩爾對摩爾定律進行了更加精確的修正:半導體集成電路的密度以及性能,每兩年翻一番。同牛頓定律不同,摩爾30年後補充說道:“我並不希望這個推論有多麼精確,我隻是試圖讓人們知道未來半導體技術是什麼樣子的,希望我們能向著這個目標而努力。”摩爾定律不是一個自然科學定律,而是一條融自然科學、高技術、經濟學、社會學等學科為一體的多學科、開放性的規律。摩爾定律所帶來的經濟學效益,已經完全成為英特爾公司發展的潛在規則。
半導體總是講究越小越好,在摩爾定律的激勵下,英特爾已經投入量產應用的製程技術可以印製出比病毒還小的電路——比人類的頭發細1000倍,同5個原子的高度差不多。半導體總是講究越多越好,英特爾半導體芯片的複雜程度持續攀升:摩爾發表摩爾定律的時候每個集成電路中包含大約60個電子元件,而現在最新的英特爾安騰處理器中集成了17億個晶體管。半導體總是講究越便宜越好,半導體的世界中,越便宜的就是越好的。在1968年,集成電路中平均每個晶體管的成本是1美元,截止到2004年,每個晶體管的成本不超過0.000001美元,而這個價格同在報紙上印製一個單詞的成本差不多。性能的提升、功能的增加、成本的下降使得半導體芯片應用到廣泛的領域中:從數字電話到個人電腦到股票交易所到太空飛船。而驅動這一切的都是40年前發表在《電子雜誌》第114頁的那篇文章。
在摩爾定律的神奇激勵下,現在計算機的計算能力已經相當強大,足以支撐我們這個大數據時代的數據分析工作。而另外兩個問題則給大數據分析的未來帶來了不確定因素。一個是摩爾定律的失效,另一個則是安迪·比爾定律。
2013年12月,美國通信芯片廠商博通創始人亨利·薩姆利表示,對於提升速度、降低功耗以及降低成本,芯片廠商目前不能三者兼顧,而隻能專注於其中兩方麵。推動摩爾定律向前發展需要更複雜的製造技術,這樣的技術本身成本昂貴,因此削弱了芯片換代帶來的成本優勢。現在的芯片製造工藝雖然本身仍有提升空間,但在未來15年中也將麵臨瓶頸。在進行3次換代後,芯片製造工藝將達到5納米。在這樣的情況下,每個晶體管柵極從頭至尾的長度僅為10個原子。在此基礎上,進一步發展是不可能的。他的觀點代表了很多業內人士的看法。
這對大數據來說不是一個好消息。大數據正以不可思議的速度在迅速增加著,未來需要處理的數據將越來越龐大,如果計算機的計算能力增長變慢,開始麵臨摩爾定律失效的問題,那麼大數據分析也同樣會受到影響。這個不好的消息之後是另一個不好的消息,這就是安迪·比爾定律。
安迪·比爾定律也是廣為人知的一條定律。安迪·比爾並不是一個人名,而是指英特爾的前任CEO安迪·魯夫和眾所周知的微軟前CEO、現任董事長比爾·蓋茨。安迪·比爾定律具體指什麼?用句俏皮話來說就是安迪給我多少,比爾就拿走多少。無論計算機的計算能力提升有多強,無論英特爾生產出多麼厲害的CPU,微軟總會用越來越臃腫的係統和軟件統統吃掉增長的硬件性能,不管硬件性能提升多少,吃性能的新軟件總能夠化神奇為腐朽,導致在使用過程中新的計算機未必比舊的計算機更快。這就是安迪·比爾定律的本質。
無論摩爾定律拔高了多少硬件性能,人們都不得不年年掏錢升級新設備,這就是安迪·比爾定律的威力所在。
隨著功能的加入和交互的革新,軟件做得越來越大是很正常的事情。然而,軟件臃腫化並不是單指軟件體積膨脹,重點是軟件增加的功能和變大的體積不成比例。安迪·比爾定律的主角是英特爾和微軟,但其實在整個業界中軟件臃腫化已是尾大不掉。無論是桌麵平台還是移動平台,軟件臃腫化的跡象都隨處可見。當年微軟推出windows vista時,硬件廠商特別是內存廠商都喜笑顏開,因為vista的前任XP僅僅依靠256M的內存就能很流暢,而vista在1G內存下才勉強達到;蘋果的移動操作係統IOS4推出時隻有600M不到,現在的IOS7已經1.3G;騰訊QQ當年隻占幾M內存,安裝包大約10M,現在什麼都不做也占近40M……整個大環境下,數據分析軟件也免不了受到影響。
兩條定律、3個名人,呈現出大數據時代的特殊煩惱。摩爾定律的失效和安迪·比爾定律的威力,都將使大數據分析麵臨一個問題:數據越來越龐大,越來越複雜,需要計算能力更加強大的計算機和功能更加強大的軟件。而計算機硬件發展開始停滯不前,軟件又變得更加臃腫和吃性能,計算機將麵臨計算危機。這無形中給未來大數據分析的發展蒙上了一層陰影。好在目前軟件工程師和硬件工程師們都在極力尋找解決這些問題的辦法,大數據分析的未來才顯得依然光明。