正文 大數據與數據挖掘(1 / 2)

大數據與數據挖掘

應用技術

作者:卜文豹 李亞強 李秀峰

[摘 要]介紹了大數據與數據挖掘的概念及相互聯係。

[關鍵詞]大數據;數據挖掘

中圖分類號:TP311.13 文獻標識碼:A 文章編號:1009-914X(2014)35-0286-01

當“大數據”鋪天蓋地般向我們湧來,人們往往期冀能夠對大數據能夠有更進一步的了解,“數據挖掘”因此成為我們理解大數據概念繞不過去的“坎”。通過將大數據與數據挖掘進行對比分析,將有助於人們了解大數據的來龍去脈和未來真實走向。

1.基本概念

數據挖掘,顧名思義就是從大量的數據中挖掘出有用的信息,即從大量的、不完全的、有噪聲的、隨機的、模糊的數據中,提取隱含其中的、規律性的、人們事先未知的、但又是潛在的有用信息和知識的過程。數據挖掘是一個在海量數據中利用各種分析工具發現模型與數據間關係的過程,它可以幫助決策者尋找數據間潛在的某種關聯,發現被隱藏的、被忽略的因素,因而被認為是在這個數據爆炸時代解決信息貧乏問題的一種有效方法。數據挖掘作為一門交叉學科,融合了數據庫、人工智能、統計學、機器學習等多領域的理論與技術。數據庫、人工智能與數理統計為數據挖掘的研究提供了三大技術支持。

大數據是通過高速捕捉、發現和分析,從大容量數據中獲取價值的一種新的技術架構。著名研究機構IDC給大數據的定義,有四個"V"字開頭的特征:Volume(體量大),Velocity(速度快),Variety(種類雜),Value(價值大)。Volume是指大數據巨大的數據量與數據完整性﹔Velocity可以理解為更快地滿足實時性需求;Variety則意味著要在海量、種類繁多的數據間發現其內在關聯;Value最重要,它是大數據的最終意義:挖掘數據存在的價值。

2.相互聯係

大數據是數據挖掘的概念再升級。相比於興起隻有2~3年的大數據概念,已有20多年發展的數據挖掘可稱得上大數據的開山鼻祖。因為大數據和數據挖掘的本質是相同的——對數據進行挖掘分析,以發現有價值的信息。而且大數據的興起,正是在人工智能、機器學習和數據挖掘等技術基礎之上發展起來的,而人工智能、機器學習又是在為數據挖掘服務。從表麵上看,大數據與數據挖掘的顯著區別在於“大”上。然而深入分析就會發現:一方麵,數據挖掘的對象不僅可以用於少量的數據,而且同樣適用於海量數據,隻是由於挖掘方法和技術工具的不斷升級換代,換了個新的名稱而已;另一方麵,大數據的本質不在於“大”,而是以嶄新的思維和技術去分析海量數據,揭示其中隱藏的人類行為等模式,由此創造新產品和服務,或是預測未來趨勢。所以大數據和數據挖掘的概念在一定時期還會並存,因應於使用的時機、場合或使用人的習慣,真正的關鍵點是如何體現出數據的價值。