大數據要少說多做
大數據
作者:郭濤
8月22—24日,2014中國大數據國際高峰論壇在上海舉行。記者隨機采訪了幾位與會嘉賓,他們幾乎異口同聲地表示:大數據當前最緊迫的任務是加速落地,不能光講概念,關鍵還是利用大數據為業務服務,促進應用創新。
不要太浮躁
“浮躁”,這是天雲大數據首席執行官雷濤對當前中國大數據市場的整體感覺。中國用戶已經逐漸認識到大數據的重要性,並且開始嚐試做一些大數據的處理和分析工作,比如采用Hadoop、內存計算等技術構建分布式的大數據平台,一些電信運營商日均處理數據的規模達到了數百億條,天雲大數據幫助銀行客戶在其核心係統中采用了Hadoop等。但是,大多數的用戶仍然習慣性地將大數據與BI(商業智能)結合在一起,按照BI的老路子處理大數據。而雷濤認為,這種作法對於大數據而言,無論是思想還是實施方法都是有問題的。“我們已經邁入DT(Data Technology)時代。在搭建起適合的大數據基礎架構平台後,我們要學會如何更聰明地處理數據。在IT時代,人們更關注技術本身,而在DT時代,信息才是核心。”
北京騰雲天下科技有限公司(TalkingData)聯合創始人、副總裁蔣奇也認為,當前大數據的口號喊得多,而真正落地的大數據應用和成功的商業模式還比較少。“我們嚐試用移動大數據實現風險管控,雖然實現起來難度比較大,而且有失敗的風險,但我們仍然勇敢地進行嚐試。”蔣奇表示,“最初,用戶不斷產生的新需求促使我們持續地改進自己的產品,增加新功能。後來,我們觀察到一些新的數據消費需求,因此在開發通用的移動大數據平台的基礎上,又增加了許多垂直應用,繼續開拓遊戲、電商、金融等細分市場。”
“在大數據方麵,我們欠缺的是基礎知識方麵的教育,還有大數據的實施和應用經驗。”賽仕(SAS)軟件研究開發(北京)有限公司總經理劉政語重心長,“大數據的出現並不是要替代傳統的結構化數據分析,而是一種有益的補充。不能單純強調大數據在處理非結構化數據方麵的長處,而忽視或放棄對結構化數據的分析。大數據若想發揮其價值,還是要依靠原來的技術基礎。”
大數據價值逐漸顯現
移動互聯網領域是大數據應用的前沿。成立於2011年的TalkingData是一家獨立的提供移動大數據服務的公司。截至今年7月底,TalkingData的數據服務已經覆蓋8億台終端設備。“以前,一個APP的開發團隊沒有渠道去了解和掌握其開發的APP的用戶下載和使用情況。我們提供了一個雲端的分析平台,可以從終端上提取APP用戶的行為數據並進行分析,然後將結果反饋給APP開發團隊,這樣有利於其產品迭代。”蔣奇介紹說,“我們目前支持的應用超過4萬個,滴滴打車、聚美優品和許多知名的遊戲廠商都是我們的用戶。”
TalkingData的目標客戶群十分明確,就是個人消費者。蔣奇認為,隻有為個人消費者提供服務才能真正展現大數據的價值。雖然服務的是個人消費者,但TalkingData合作的對象都是企業用戶。幫助這些企業了解其客戶的情況,實現精確營銷是TalkingData的主要任務。蔣奇舉例說,以前,采用線下發卡的方式,由於開卡周期長,招商銀行的信用卡開卡率隻有30%左右。招商銀行希望改用線上發卡,但又苦於沒有好的辦法進行信用風險評估。TalkingData根據信用卡申請人提交的家庭地址、單位地址和所持移動設備的MAC地址信息,利用先進的算法可以反推並核實信用卡申請人提交的信息是否正確,而這一過程隻需三五分鍾。
利用從終端設備上獲取的“去敏感”數據,TalkingData可以反算出設備擁有者的個人信息、喜好等,然後將這些信息提供給傳統行業的用戶,幫助他們實現業務增值。蔣奇表示:“未來,我們希望在機器學習、智能挖掘等技術方麵更進一步,同時在算法上有新的突破。”
SAS在結構化數據分析方麵擁有領先的技術和全麵的解決方案。劉政認為,現在SAS已經可以很好地解決大數據“大”這個問題。用傳統的方式處理幾百行數據都要很長時間,但現在采用多線程、分布式的處理方式後,可以大大提高數據處理的效率。“傳統的工作方式是從數據庫中讀取數據,然後建模、分析。現在,我們將計算模型放到數據庫中,不用提取數據,在數據庫中即可完成數據的處理和分析,從而提高了數據處理和分析的速度。利用內存處理技術,我們可以實時地進行數據處理。”劉政介紹說,“我們將可視化技術與內存技術相結合,幾秒鍾就可以把所有數據掃描一遍,並得到實時處理結果,這讓大數據分析變得非常簡單,就像使用傻瓜相機一樣。”