正文 淺談數據挖掘研究及其應用(1 / 2)

淺談數據挖掘研究及其應用

探索與觀察

作者:趙美豔

【摘要】數據挖掘技術雖說是一個比較新的數據庫技術,但隨著應用日益廣泛,它得到了很大的關注。該文概述了數據挖掘的相關理論知識,並應用到教學實踐,鑒於學校教學中因材施教的教學特點,提出了要應用數據挖掘技術來分析學習者自身的學習狀態的觀點。最後分析了數據挖掘中的問題及研究方向。

【關鍵詞】數據挖掘;知識發現;分類;聚類;關聯規則

隨著計算機和網絡的普及,在日常生活中人們使用計算機來處理數據的機會也就越來越多,隨之由計算機產生的數據也就成幾何式增長,由此計算機收集的數據量每天在急劇的增多,利用信息技術產生和搜集數據的能力也在大幅度的提高,如何有效的利用處理這些平時看起來無用的數據信息已成為當今世界計算機領域共同關心的熱點話題。隨著數據庫技術,人工智能和數理統計等技術和學科的不斷發展和完善,數據挖掘技術在此基礎上產生,它緊密的與我們現實生活聯係在一起,同時也是現代科學技術發展和人們生活需求的必然趨勢。它的基本目標就是從大量的看似無用而用雜亂的數據中提取出隱藏的有用的知識和信息。這一技術自十年前提出以來,引起了許多專家學者的廣泛關注,並且在實際的研究過程中把數據挖掘用到了各個領域,並且取得了良好的社會效益,以此可以看出數據挖掘技術在現實中有著廣泛的應用前景和開發前景。

1.數據挖掘概述

數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。

數據挖掘同時是一種新的商業信息處理技術,可以對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性數據。

2.數據挖掘的方法

數據挖掘的任務主要有關聯、聚類、分類、預測和偏差分析等。關聯規則是指各個數據項之間相互依存的關係,發現規則的任務為從數據庫中發現一些置信度、支持度大於給定閾值的強關聯規則,這些閾值是人為設定的。在大型數據庫中,每個字段之間都存在著多種多樣的關係,且都隱藏在數據庫包含的信息中,關聯規則的目的即為找出數據項之間隱藏關係。聚類是將物理或抽象對象的集合分成由類似的對象組成的多個類的過程。由聚類所生成的簇是一組數據對象的集合,這些對象與同一個簇中的對象彼此相似,與其他簇中的對象相異。分類是一種重要的數據分析形式,它提取刻畫重要數據類的模型,用於預測數據對象的離散類別。預測是利用原有數據找出其數據之間的規律級關聯,然後建立模型,並由此對未來數據的種類、特征及發展趨勢進行預測,用於預測數據對象的連續取值。偏差分析是因為發現數據庫中有些數據存在某些不符合要求的情況,尋找結果與參照數據之間的差別,如果這種差別不在允許的範圍內需要對這些數據進行降噪處理。

3.數據挖掘的應用

隨著數據挖掘技術的日趨成熟和應用的推廣,數據挖掘技術的應用越來越廣泛,數據挖掘在天文學上有一個非常著名的應用係統:SKICAT。利用SKICAT,天文學家已發現了16個新的極其遙遠的類星體,該項發現能幫助天文工作者更好地研究類星體的形成以及早期宇宙的結構。數據挖掘在生物學上的應用主要集中於分子生物學特別是基因工程的研究上。基因研究中,有一個著名的國際性研究課題——人類基因組計劃。近幾年,通過用計算生物分子係列分析方法,尤其是基因數據庫搜索技術已在基因研究上作出了很多重大發現。在商業應用中,由於管理信息係統和POS係統在商業尤其是零售業內的普遍使用,特別是條形碼技術的使用,從而可以收集到大量關於用戶購買情況的數據,利用數據挖掘技術通過對用戶數據的分析,可以得到關於顧客購買取向和興趣的信息,從而為商業決策提供了可靠的依據。典型的金融分析領域有投資評估和股票交易市場預測,分析方法一般采用模型預測法(如神經網絡或統計回歸技術)。銀行或商業上經常發生詐騙行為,如惡性透支等,這些給銀行和商業單位帶來了巨大的損失。這方麵應用非常成功的係統有:FALCON係統和FAIS係統。電信行業用來對客戶的流失進行預測,以期能夠最大限度的留住客戶等等。這一切都體現出在這個信息爆炸的年代使用數據挖掘技術可以為我們的生活帶來許多的方便,從而提高我們生活的質量和效率。