正文 大數據的特征和相關技術分析與趨勢研究(3 / 3)

分布式技術 分布式技術是一種基於網絡的技術,把網絡上物理位置不同的、分散的、閑置的資源整合起來,完成大型、複雜、大數據的計算與存儲[4]。該技術主要是應對傳統集中式技術存在的缺陷而產生的。它的目標是充分利用資源和提高大型任務的完成效率。所以它主要是針對那些大型任務,為了縮短時間,提高效率,通常把任務按照一定的規則或算法分配到不同的子節點,由子節點完成子任務,然後對每個子結果進行彙總,各個子任務在不同的子節點上並行執行,在充分利用子節點資源的同時,也降低了單個節點的負載。

分布式技術從20世紀80年代至今經曆了網格計算、對等計算、並行計算、雲計算等幾個階段。進入21世紀,Google推出分布式技術領域的三大典型技術——GFS、MapReduce、BigTable。當前國內外把分布式技術廣泛應用於高性能計算領域。分布式技術在國內成功應用的案例是我國四大超算中心的建立,使得分布式技術廣泛應用於氣候、環境、醫療衛生、經濟等領域。另外,很多NoSQL數據庫也是借助分布式技術實現的,如HBase、MogoDB等。

可視化技術 1983年,耶魯大學的政治學教授愛德華·塔夫特係統地考證了人類用“圖形”表達“數據”和“思想”的淵源,整理了種種曆史古籍中的圖形瑰寶,並結合計算機的發展給統計領域帶來的革命,出版了《定量信息的視覺展示》一書[5]。這本書後來被公認為是“數據可視化”作為一門學科的開山之作[5]。

人工智能、數據倉庫、數據挖掘等大數據技術是麵向機器和數據分析專業人員的,而可視化技術麵向的是最終用戶。不管是數據分析專業人員還是普通的用戶,數據可視化是數據分析的最終目標。可視化可以直觀展示數據之間的內在聯係以及可能的潛在趨勢,讓數據說話,讓觀眾看到更形象的結果,決策才能更有信服力,目標才更能接近成功。

互聯網、通訊技術和傳感器技術的發展使得全球數據量呈指數級增長趨勢。美國互聯網中心和IBM研究中心統計,從2011年開始,數據每年增長50%,每兩年翻一番。而大數據技術隻有飛速發展方能解決不斷增長的數據分析需求。

5 大數據的研究趨勢

人類已經進入一個無時不網、無處不網的“智慧世界”時代,大數據將在人們的社交網絡、電子商務等互聯網領域更好地服務人們的生活。更重要的是,其將在社會管理、經濟管理、醫療與健康、數據新聞、物聯網、教育科技等諸多領域有更好的應用並推動各領域的發展與進步。但大數據的發展也麵臨諸多挑戰。大量的數據中心每年正在成倍出現,1998年,美國擁有432所數據中心,專門負責各類數據的存儲和維護工作;2010年,數據中心的總數躍升到2094所,翻了幾倍。就像物流成為電子商務的發展瓶頸一樣,製約數據中心發展的核心難題是日益攀升的能耗問題。未來可能通過收集更多的數據中心的能耗數據並進行大數據挖掘技術,破除影響其發展的屏障。

另外,隨著互聯網的發展,數據收集的途徑多種多樣,數據門類繁雜,可能會造成大量私密數據泄露和“人肉搜索”等不道德現象。因此,針對未來大數據運動的狂潮,應該法律法規先行,並在數據收集、管理、處理和共享過程中建立完善的道德規範。

數據的整理和管理也是大數據時代麵臨的重大挑戰。在這個數據爆炸時代,數據的數量、速度和多樣性都在呈現爆炸式增長,大量數據相互聯係、緊密交織在一起,而且呈螺旋狀發展,因此,開發高效的工具、方法和規範以及有效地歸類、整理、管理這些數據是必要的。

參考文獻

[1]朱淑華.暨南大學公開課:開啟“智慧生活”的大數據[EB/OL].

[2]張妮,徐文尚,王文文.人工智能技術發展及應用研究綜述[J].煤礦機械,2009,30(2):4-7.

[3]王喜文.人工智能與大數據怎樣結合?[N].中國電子報,2014-7-17(3).

[4]寧葵,嚴毅.分布式計算技術發展研究[J].微機發展,2004,14(8):14-16.

[5]塗子沛.大數據:正在到來的數據革命,以及它如何改變政府、商業與我們的生活[M].廣西:廣西師範大學出版社,2012.