正文 阿裏巴巴:數據派猛獸(2 / 3)

沒過多久,車品覺轉身進入淘寶,也開發了兩款產品。一款“黃金策”,能夠綜合700多項變量進行疊加,數秒內可以就特定人群和特定應用場景行為的推導查詢;而另一款產品“無量神針”則提供對淘寶數百萬賣家的實時洞察,可以可視化圖表直接提示可能存在的風險,每當數據“異動”發生,比如遭遇“惡拍”(網絡“打手”買下產品,等產品上門後,以各種理由拒收,以此要挾“保護費”或打擊競爭對手),就會及時向對應的運營者發出預警。

有基於此,阿裏從大數據的童蒙摸索,到有方向的縱深挖掘,逐漸“玩”出了感覺。

玩轉大數據“寶刀”

毫無疑問,遠不止是阿裏,當下,任何企業遇到難題時,都希望能通過大數據找到解決之法。這種“欲與關公借寶刀”的想法是很自然的,但要明白的是,要玩好大數據這把“寶刀”,還須有關公的臂力和技藝,而這些則需要在實踐中不斷磨練,阿裏也不例外。

“你必須麵對大數據的各種困境,尋求解決之道。”車品覺告訴記者。

首先,便是應對企業內部各方的需求。

一來,管理層對大數據有極高的期望,他們認為它應該對公司產生很大的價值;二來,中層管理者對大數據沒有太多感覺,讓他們突然去想數據這個事情,並不了解其中原委,他們隻會說:“我根本不知道有什麼數據可用”;如此,做數據的人會感覺到無力,因為他們所做的數據距離具體的商業場景“萬水千山”。最終,三者都達不到自己期望的境界。

為此,阿裏就必須琢磨著如何跨越後兩者的“鴻溝”,從而達到管理層的期望。

按照車品覺的說法,這就需要專門的中間層人才,要麼讓業務中層去學習大數據的技法,要麼懂得數據分析的工程師去學習業務,以此造就出中間層人才,讓他們可以看到業務,馬上在腦海中形成數據分析的構架,也能在看到數據後,感知到它對業務層麵的意義,如此,他們在業務層、數據工作層之間充當“翻譯”,進而彌合雙方的信息不對稱。現在看來,數據分析師學習業務,是更易行的方法,畢竟數據分析技術要求太高,學起來很吃力。

其次,要保持數據的“幹淨”,數據必須要經過“清洗”。

幾年前,曾有一個用數據的分析師,找到數據收集部門,責怪他們更改了一個數據,卻沒有通知他,結果因為這個數據出錯,造成一係列分析上的差池,而事實上,負責數據收集的人並沒有想到自己對一個數據的處理會產生這樣的“蝴蝶效應”。

不難想象,數據一旦被擺放出來,就可能為人所用,它可以來自於八個係統,二十多個開發組,其中任何一個數據“人為”或“非人為”的汙染(采集錯誤或口徑不同),都可能改變整組數據的“性質”,故而,所有數據必須被“清洗幹淨”。

為此,阿裏集團內的數據大多都經過這般旅程——譬如消費者在淘寶上的一個收藏動作,產生一條數據,先在淘寶網的前端服務器上產生一條日誌,這條日誌隨後被傳送存儲到專用的服務器上,其間經過淘寶團隊的清洗。然後,在數據平台事業部的服務器上,這條數據將再被檢查其日誌格式是否正確,是否有過變動,為何變動……如此清洗後,它被編入數據庫,接著與其他若幹數據一同被分入分主題的數據集市。當分析師們進行數據挖掘時,它再度接受挑選,看其是否受用。

再次,則必須保持數據的快速更新,實時可用。

懂得數據倉庫的人都明白,數據倉庫裏麵的最大的瓶頸,一般都是IBM、Oracle、EMC(IOE)的商用係統構架。隨著數據量的快速增加,阿裏已發現這種傳統數據庫越發力不從心,越來越多業務部門的分析師發現他們早晨9點上班看數據時難以獲得結果,而實際上,數據庫的工程師們每晚忙到11、12點才能下班——越來越多的數據讓傳統商用機器難以按時計算完成。

由此,與大數據的裂變同步,原微軟亞洲研究院常務副院長王堅出任阿裏首席構架師,開始主導阿裏從原來的IOE商用係統向Hadoop的分布式平台遷移,後者較前者不僅成本低廉,而且可擴展性極強,Google等互聯網巨頭都是采用此大規模計算體係。也是在此體係下,阿裏才能實現全集團實時數據的打通、整合管理和共享。