Hadoop邁入2.0時代 更適合企業應用
大數據
作者:郭濤
“現在是企業應用Hadoop的最佳時機。”Hortonworks公司首席技術官Jeff Markham在11月底舉行的2013中國Hadoop技術峰會上演講時表示。在本次峰會上,Hadoop進入2.0時代成了人們談論的焦點。Jeff Markham表示,Hadoop 2.0擁有更強大、更廣泛的符合企業用戶需求的新特性,彌補了Hadoop 1.0的不足之處,更符合企業用戶的需求。
Hadoop改頭換麵
Jeff Markham在介紹Hadoop 2.0的新特性時,記者聽到身後有人竊竊私語:“你看,Hadoop 2.0的框架中多了幾個奇怪的功能模塊。”是的,這些功能模塊中最重要的就是YARN。YARN其實是一個資源管理器,它從某種程度上說顛覆了Hadoop的數據處理核心MapReduce,能讓用戶以與批處理完全不同的新的交互方式來運行Hadoop。眾所周知,Hadoop的設計初衷是為了搜索和索引Web網頁,而負責操控數據的MapReduce擅長處理和分析非結構化或半結構化的數據,比如日誌文件等,但並不適合處理所有類型的數據。隨著數據量的增長以及數據複雜性的增加,人們更希望能夠在一個集群中處理多種類型的應用程序。這也是Hadoop 2.0誕生的背景。
有人認為,YARN本質上就是Hadoop的新操作係統,它突破了MapReduce的性能瓶頸。Hadoop與YARN的組合更適合企業大數據的應用。YARN的設計思想是將資源管理與作業調度/監控功能分離,其架構實現是通過一個全局的ResourceManager與若幹個麵向具體應用程序的ApplicationMaster的組合,其中ResourceManager負責將資源分配到各個應用程序,而ApplicationMaster負責運行和監控任務。Jeff Markham表示:“加入YARN這一管理層,讓Hadoop可以更好地滿足企業級用戶對大數據平台的需求。我們公司從安全、管理、配置等多個層麵已經為Hadoop 2.0進入企業做好了準備。”
Hadoop 2.0已經不是一個設想,而是實實在在的解決方案。中國本土的大數據公司星環信息科技(上海)有限公司(以下簡稱星環科技)就在峰會上宣布,正式推出融合Spark與Hadoop 2.0的大數據平台產品Transwarp Data Hub。“企業用戶的一個共同想法是,更高效地處理更大量的數據,同時降低時延。”星環科技聯合創始人、CTO孫元浩介紹說,“以前,針對不同數量級的數據,人們會采用不同的處理技術,比如內存技術、索引技術以及一些性能優化技術等。Transwarp Data Hub的一個最突出的優勢是,可以在一個平台上處理從GB級到PB級的數據。”
正是因為Transwarp Data Hub具備了這樣的能力,所以它的應用範圍十分廣泛,包括離線分析、統計與挖掘、在線存儲以及在線的基於內存的高速分析等。Transwarp Data Hub將數據集成/ETL、大數據存儲和在線服務係統、基於內存的高效計算引擎、高性能SQL、統計分析和機器學習等融為一體,實現了性能上的突破。用孫元浩的話說,Transwarp Data Hub具有“閃電”般的速度,其速度比開源Hadoop 2.0快10~100倍。此外,Transwarp Data Hub還具有強大的分析能力,並與Hadoop生態係統全麵兼容。
以Transwarp Data Hub為核心,星環科技還與許多大數據廠商進行了合作,包括Revolution R、Informatica、Tableau等,將這些廠商的數據處理與分析工具進行整合,構成了完整的大數據平台。
降低應用門檻
由於Hadoop本身的複雜性,以及企業中缺少相關的大數據專業技術人員,Hadoop若想在企業用戶中得到快速普及其實並不容易。因此,很多IT廠商紛紛向Hadoop拋出“橄欖枝”,有的提供基於Hadoop的硬件解決方案,有的則推出了Hadoop軟件的商業發行版,其目的隻有一個,就是降低Hadoop的應用門檻。
在本次峰會上,許多知名IT廠商,包括英特爾、VMware、華為等以及眾多電信運營、互聯網企業都現身說法,為Hadoop在中國的推廣站腳助威。英特爾亞太研發有限公司總經理何京翔表示,除了發布Hadoop商業發行版以外,英特爾從硬件(包括處理器、固態硬盤等)、安全性、管理和優化等多個角度對Hadoop提供全方位支持,目的就是讓Hadoop更能滿足企業用戶的需要。