優酷引入Spark深化大數據處理
行業應用
作者:湯銘
在2013年艾美獎頒獎典禮上,Netflix的首部原創劇集《紙牌屋》獲得了9項大獎的提名,並最終斬獲最佳導演和最佳選角兩項大獎。據說 Netflix 推出該劇前對用戶的數據進行了大量的分析,從而將用戶所喜歡的多個關鍵要素融入到了劇情中。
《紙牌屋》的成功背後,大數據到底起到了多大的作用,可能很難用具體的數字來確認。但是可以肯定的是,當前視頻網站的發展,已經離不開大數據技術的推動,視頻網站自身已經成為這股大潮中的弄潮兒。
優酷土豆集團(下稱優酷)專注於視頻領域,是中國網絡視頻行業領軍企業之一。相關人士向記者表示,優酷從2009年就開始采用Hadoop大數據平台,最初隻是10多個節點的規模,2013年整個集群節點達到了300個,每天處理數據量達到200TB。
優酷首席技術官姚健曾經表示,對優酷而言,通過用戶的每次播放流程,優酷的後台係統都會對頁麵瀏覽、評論收藏、視頻播放以及播放時的各種操作進行記錄。經處理後的分析結果會反饋給內部不同的業務模塊,對優酷在產品、內容運營、用戶的個性化推薦及廣告投放等方麵的提升,都起到了關鍵作用。
“對優酷來說,從網站頁麵設計、內容推薦到廣告投放,都離不開大數據技術的支持。”優酷土豆集團大數據團隊技術總監盧學裕表示,優酷通過對各種數據進行分析處理後,不但能夠為廣告主呈現出用戶行為特征,提供廣告投放價值的分析,而且在用戶體驗優化方麵都有很大的幫助。
優酷大數據團隊大數據平台架構師傅傑告訴記者,一直以來,優酷都在使用MapReduce和Hive來處理大數據,特別是一些視頻推薦挖掘的數據都是通過MapReduce來處理。在這個過程中,優酷發現有一些場景其實並不適合MapReduce,處理效率不盡如人意。
“隨著優酷業務發展的不斷壯大,分析的數據量也自然就越來越大。之前使用Hadoop處理一些諸如機器學習、圖計算等迭代式計算問題時,處理速度成為了瓶頸。內部的分析人員提交任務後要等上很長時間才能得到結果,等待時間之長已經有些令人不能忍受。”盧學裕說,“最終,在英特爾公司的幫助下,優酷將Spark引入到了自身的大數據計算框架中,作為整個Hadoop集群的補充。其效果還是相當令人滿意的,以圖計算為例,相同的數據量,在以往的平台上需要80多分鍾,在4節點的Spark集群上,用時隻需要5分鍾左右。”
Spark是一個通用的並行計算框架,由伯克利大學的AMP實驗室開發,已經成為繼Hadoop之後又一大熱門開源項目。作為一種與 Hadoop 相似的開源集群計算環境,由於啟用了內存分布數據集,Spark 在某些工作負載方麵表現得更加優越,除了能夠提供交互式查詢外,它還可以優化迭代工作負載。
據悉,英特爾公司從2012年中旬開始向Spark開源社區貢獻,目前已經與優酷等互聯網公司進行了相關的合作。英特爾(中國)有限公司銷售市場部互聯網及媒體行業企業客戶經理李誌輝表示:“未來英特爾還會持續跟優酷合作,一旦整個集群達到一定規模,英特爾還會投入相應專家來幫助優酷做一些硬件配置上的優化,包括係統的一些優化工作。最終的目標,就是將英特爾的整體解決方案和優酷這樣的用戶的業務相結合。”