數據挖掘在高校招生中的應用研究
科技縱橫
作者:孫龍
摘 要:高校招生是我國非常重要的教育活動,隨著高級院校招生規模的逐步擴大,招生方式朝著多元化、自主化的方向發展。在我國教育改革影響擴大的背景下,高校招生的競爭性不斷增加。高校招生主管部門在招生工作中積累的數據量龐大,因此,在這樣龐大不可勝數的數據中,要怎樣去發現並提取對高校招生有用的信息,成為高校招生工作的重點。所以,本文通過利用數據係統對數據進行預處理、利用熵值離散法與關聯規則對數據進行提取、數據係統挖掘的結果分析三方麵進行對數據挖掘在高校招生中的應用研究。
關鍵詞:高校招生 數據挖掘 關聯規則
一、利用數據係統對數據進行預處理
利用VC6.0作為前台,Access作為後台數據庫的軟件建立起高校招生的數據係統。通過該係統首選對數據預處理,預處理一般包含:數據清理、數據集成和數據規約。下麵重點講解一下數據規約。數據規約主要包含:數值規約和屬性規約。
數值規約又分為:數據泛化和連續數據離散化。①數據泛化一般是對於離散的數據而言,就是通過分析數據內容的相似點,抽象和概括出初始數據的特點,並用較少的數據表示出來,從而達到減少初始離散數據的目的。初始數據往往是龐大的,不易於管理和挖掘。如果不對初始數據進行泛化,那麼數據的一般數量值過多,具體信息過大,很難從中挖掘出有價值的招生信息。例如:對於“籍貫”中武漢、襄陽、宜昌等地方,可以統一歸入“湖北”這個簡單的數據中來,這就是對初始數據的簡單泛化。這個係統需要泛化的內容主要是:專業、籍貫、學生類別。利用係統進行泛化操作,必須要和實際應用緊密聯係,確定泛化要概括的層次和高度。這裏簡要介紹泛化處理的2種不同操作方式:有參方法、無參方法。有參方法就是在對初始數據進行泛化時,根據實際需要確定一個模型,通過這個模型對數據進行分析,我們將初始數據用不同的參數代替,代替後的數據實質上與初始數據不同,隻有意義上的聯係。上麵舉例的籍貫的泛化,其實就是對有參方法的應用。無參方法顧名思義就是不適用參數,一般通過聚類、直方圖、選樣等技術手段來實現對數據的泛化。②連續數據離散化。連續數據通過分割區間和確定有限個數的方法進行離散化。
屬性規約:數據源中某個屬性的值被數值規約後,根據實際情況的需要,某些屬性對於數據的挖掘沒有任何幫助,反而會影響挖掘工作的效果和精度。對於這些對於屬性,有必要進行規約。
由於數據的輸入是依靠手動輸入,輸入過程會出現錯誤,因此要對數據進行清理。需要進行泛化的數據有:1.高考分數,高考分數為連續數據。高考分數是直接影響錄取資格的,其數據是連續性的,所以需要對其進行離散化處理。2.籍貫,籍貫是離散型數據,它代表的是學生所在地區,不同地區的教育質量和學生知識掌握水平有著明顯的差距,因此可以通過數據挖掘提取出綜合素質較高的學生。3.考試類別,考試類別是離散型數據。一般劃分為城市應屆。城市往屆、農村應屆、農村往屆。4.專業,專業是離散型數據,具體包括:土木工程,藝術設計電氣工程,機械工程等,專業很多,在這裏就不一一列舉。
二、利用熵值離散法與關聯規則對數據進行提取
在信息論中,熵是對不確定性的一種度量。信息量越大,不確定性就越小,熵也就越小;信息量越小,不確定性越大,熵也越大。運用熵的這種特征,我們可以進行計算熵值來判斷一個事件的隨機性及無序程度,同時,可以運用熵值來分辨指標的離散程度,即離散程度越大的指標,對其綜合評價的影響就越大。