大數據的核心和本質是預測,通過分析方法和工具探索隱藏在數據表麵背後的本質和規律,從而使企業在未來的商業活動中更具有主動性,政府製定社會治理決策更準確、更有針對性,個人在未來的生活和學習活動中更能找到適合自己的方式方法。這一過程又稱“知識發現”。著名的“啤酒與尿布”理論,沃爾瑪超市利用大數據發現了這一規律並應用到商業活動中,從而使自身的利潤獲得質的飛躍;美國管理學家、統計學家愛德華·戴明所言“除了上帝,任何人都必須用數據說話”,引領奧巴馬政府上任伊始就樹立了開放型政府的目標;作為“世界上量化最極致的人”,美國人克裏斯·丹西克裏斯利用穀歌眼鏡等無線傳感設備每天記錄自己的飲食、情緒變化等,通過這些數據,他可以把自己的身體和情緒調整到最健康的狀態。
4 大數據技術
大數據分析是一門涉及計算機科學、信息科學、統計學等多門學科的交叉學科,大數據的應用可以擴展到與人類相關的任何領域、任何角落,尤其是社會學、新聞學、教育學等社會學科。隨著計算機技術的進步、統計分析水平的提高,越來越多的方法和技術會應用到大數據的分析過程中。以下重點介紹目前大數據分析涉及的相關技術。
人工智能 人工智能是關於知識的一門學科,是關於如何表示知識以及怎樣獲得知識和使用知識的學科[2]。隨著互聯網和社交網絡的發展,大數據中的非結構化數據占據了主要地位,如電子郵件、圖形圖像、視頻等數據資源。結構化數據的管理一般通過關係數據庫實現,由SQL進行分析;非結構化的數據分析需要利用自然語言處理、圖像解析、語音識別等技術,而這些技術正是人工智能的研究領域。將大數據與人工智能結合運用的經典是Google語義搜索和Apple的語音識別技術Siri,這些技術的進步,不僅需要理論的支撐,更需要大數據作為基礎[3]。大數據與人工智能的結合已經給傳統行業帶來新的創新模式,其也必將在更廣的領域改變人類的思維方式和實踐能力。
數據倉庫 數據倉庫之父W. H. Inmon認為,數據倉庫(Data Warehouse,DW)是一個麵向主題的、集成的、隨時間而變化的、不容易丟失的數據集合,支持管理部門的決策過程。從W. H. Inmon對數據倉庫的定義可以看出,數據倉庫有四方麵的特征,即麵向主題、數據集成、隨時間而變化、數據不易丟失,這也是數據倉庫與關係數據庫的區別所在。
在大數據中,數據類型繁多,既有結構化數據,更存在大量的非結構數據,針對異構數據的存儲和融合,應采用混合存儲方式。結構化數據存儲與處理借助於傳統的關係型數據庫,大量的非結構化數據則需要借助於NoSQL非關係型數據庫。當前大量的非關係型新型數據庫應用到大數據的存儲中,如麵向集合模式自由的文檔數據庫MongoDB、基於內存的鍵值存儲數據庫Redis、分布式MPP架構/列存儲數據庫HBase等。除了基本的存儲功能,數據倉庫還可以用來進行信息處理和分析處理,特別是對大數據的聯機分析處理是其最重要的用途。
數據挖掘 數據挖掘是指通過特定的計算機算法對大數據進行自動分析,從而揭示數據的價值、發展趨勢和數據之間的相關關係,為決策者提供新的依據。在大數據中挖掘知識就像在礦山中掘金一樣,困難重重,任務繁重,是一個長期的反複的過程。大數據的積累使得從中提取有用的數據成為巨大的挑戰。由於大數據與傳統數據相比,具有4V特性,無法使用傳統工具達到用戶的訴求。數據挖掘很好地將傳統的數據分析方法和處理大數據的複雜算法相結合。數據挖掘不僅要發現隱藏在數據內部的客觀規律,而且對相關領域未來趨勢進行預測。預測是大數據的核心,預測的技術支撐就是數據挖掘,挖掘數據的價值和內含的規律。數據挖掘是大數據分析的核心技術,隻有尋求到更合理的挖掘算法,才能準確有效地挖掘出大數據的真正價值,而且更能實現對動態發展數據的分析。