數據挖掘技術在信息安全證據處理中的應用
可靠傳輸
作者:許燕
摘要:為了有效解決信息安全證據獲取和證據規範化等難題,文章從數據挖掘的角度,闡述了如何搜集、處理信息安全在搜索潛在威脅時的證據,給出了如何獲取證據以及證據的規範化表示的基本思路,從而增強了信息網絡的安全信任屬性。
關鍵字:信息安全;數據挖掘;證據;規範化
中圖分類號:TP393.08 文獻標識碼:A 文章編號:2095-1302(2013)02-0046-03
0 引 言
隨著現代化計算機技術的不斷發展與進步,社會逐步進入網絡化和信息化的時代,網絡時代信息的有效收集、提取、存儲與分析等勢必也會與網絡產生千絲萬縷的聯係,但是,現階段網絡信息的安全性受到很大的挑戰,對網絡信息監督與控製已是迫在眉睫[1]。數據挖掘技術可以及時有效地發現信息本身的特征及不同信息係統之間的關係,進而追蹤信息發展,可以有效地實現對信息的監督與控製。在計算機網絡係統中,會有很多包含信息安全的證據被隱藏於文本文件或者音頻、視頻等文件中。而網絡數據挖掘技術恰好可以針對證據的這類特點對數據進行分析與整理,發現數據之間的關係及數據本身所存在的某些特征,進而對信息安全進行有效監督與控製。
1 數據挖掘技術
數據挖掘是人工智能與數據庫技術相結合的產物,是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的卻又潛在有用的信息和知識 的過程[2]。根據數據挖掘的目標,采用人工智能、集合論、統計學等方法,應用相應的數據挖掘算法,分析數據並通過可視化工具表述獲得模式或規則。它使數據存儲技術進入一個更高級階段,它不僅利用了傳統的數據庫的存儲功能,對曆史數據進行查詢和遍曆,而且還能夠找出曆史數據之間的內在聯係,掘出數據庫中大量數據背後隱藏著的許多重要信息。這些信息是關於數據的整體特征的描述及對發展趨勢的預測,在決策生成中具有重要的參考價值。數據挖掘作為一門交叉學科,把人們對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識,提供決策支持。該技術所能發現的知識可以劃分為如下幾種模型:關聯模型、回歸模型、分類模型以及序列模型等[3]。
1.1 關聯模型
關聯模型主要用於分析不同事件之間的關聯性,即一個事件發生的同時,另一個事件也經常發生。關聯模型中所關注的重點是那些有實用價值的關聯發生的事件。其主要依據是事件發生的概率和條件概率應該符合一定的統計意義。關聯的規則是形如 x→Y的蘊涵式,表示數據庫中滿足x條件的記錄必定也滿足Y的條件。其中x和Y分別稱為關聯規則的先導(LHS)和後繼(RHS)[4]。
1.2 回歸模型
回歸模型主要是用於分析一個變量(被解釋變量)關於另一個(些)變量(解釋變量)的具體依賴關係的計算方法和理論。從一組樣本數據出發,確定變量之間的數學關係式對這些關係式的可信程度進行各種統計檢驗,並從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些不顯著。利用所求的關係式,根據一個或幾個變量的取值來預測或控製另一個特定變量的取值,並給出這種預測或控製的精確程度。
1.3 分類模型