數據挖掘係統設計技術分析
信息技術
作者:蔣勇傑
【摘要】數據挖掘技術則是商業智能(Business Intelligence)中最高端的,最具商業價值的技術。數據挖掘是統計學、機器學習、數據庫、模式識別、人工智能等學科的交叉,隨著海量數據搜集、強大的多處理器計算機和數據挖掘算法等基礎技術的成熟,數據挖掘技術高速發展,成為21世紀商業領域最核心競爭力之一。本文從設計思路、係統架構、模塊規劃等方麵分析了數據挖掘係統設計技術。
【關鍵詞】數據挖掘;商業智能;技術分析
引言
數據挖掘是適應信息社會從海量的數據庫中提取信息的需要而產生的新學科。它可廣泛應用於電信、金融、銀行、零售與批發、製造、保險、公共設施、政府、教育、遠程通訊、軟件開發、運輸等各個企事業單位及國防科研上。數據挖掘應用的領域非常廣闊,廣闊的應用領域使用數據挖掘的應用前景相當光明。我們相信,隨著數據挖掘技術的不斷改進和日益成熟,它必將被更多的用戶采用,使企業管理者得到更多的商務智能。
1、參考標準
1.1挖掘過程標準:CRISP-DM
CRISP-DM全稱是跨行業數據挖掘過程標準。它由SPSS、NCR、以及DaimlerChrysler三個公司在1996開始提出,是數據挖掘公司和使用數據挖掘軟件的企業一起製定的數據挖掘過程的標準。這套標準被各個數據挖掘軟件商用來指導其開發數據挖掘軟件,同時也是開發數據挖掘項目的過程的標準方法。挖掘係統應符合CRISP-DM的概念和過程。
1.2ole for dm
ole for dm是微軟於2000年提出的數據挖掘標準,主要是在微軟的SQL SERVER軟件中實現。這個標準主要是定義了一種SQL擴展語言:DMX。也就是挖掘係統使用的語言。標準定義了許多重要的數據挖掘模型定義和使用的操作原語。相當於為軟件提供商和開發人員之間提供了一個接口,使得數據挖掘係統能與現有的技術和商業應用有效的集成。我們在實現過程中發現這個標準有很多很好的概念,但也有一些是勉為其難的,原因主要是挖掘係統的整體概念並不是非常單純,而是像一個發掘信息的方法集,所以任何概念並不一定符合所有的情況,也有一些需要不斷完善和發展中的東西。
1.3PMML
PMML是1999年由DMG發布了1.0版本,他主要是一個基於XML的模型描述語言,利用XML的描述能力來表達各種挖掘模型和規則。標準化的描述使得各個不同的廠商的軟件之間可以共享,交換這些挖掘模型。所以他主要是一種模型和規則的描述語言。
1.4對於標準的基本判斷
CRISP-DM的流程已經成為業界的基本認識,但他更像一個項目指導思想,而不是單純硬性規範。ole for dm規範了挖掘模型和操作原語,使挖掘軟件能有效,簡單的整合進現有的企業軟件架構,對於推動挖掘軟件的使用和普及意義非凡。但ole for dm的規則模型對於結構複雜,形態各異的模型規則用簡單的平麵表來表示就顯得非常怪異,而PMML正好彌補了這個缺陷,PMML利用了XML的描述能力,能有效的描述挖掘模型和規則。
挖掘服務器主要以上我們對於這些標準的基本判斷為基礎,吸收CRISP-DM和ole for dm的核心的優良概念,在實際開發中我們也是根據實際需求來拓展了一些概念和修正了一些做法,為客戶和開發使用人員提供更好的軟件。
2、軟件功能設計
2.1設計思想
數據挖掘係統的構架設計采用如下的原則:
采用分層的設計,模塊化的原則
采用先進和成熟的技術
使用C++語言使用(C/C++語言是實現服務器級別軟件的首選);使用泛型思想,麵向對象技術;使用STL容器或開發STL更優化的C++容器。