正文 Web數據挖掘在校園網搜索引擎係統中的應用研究(1 / 2)

Web數據挖掘在校園網搜索引擎係統中的應用研究

專題研究

作者:牛凱

隨著數字化校園的迅速發展,搜索引擎技術得到廣泛應用,Web數據挖掘作為數據挖掘技術的一種也應運而生。搜索引擎是基於Web數據挖掘的一個重要研究方向,校園網信息每天以不可估量的速度增長,數以萬計的網頁資源讓師生在浩瀚的信息海洋中眼花繚亂,而搜索引擎的出現則很好的解決了這一現實問題。Web數據挖掘能夠從大量的Web文檔和網頁中抽取出師生感興趣的、潛在的、隱含的信息,為校園網搜索引擎係統提供了強有力的技術支持。

1.Web數據挖掘技術

隨著信息時代的飛速發展,互聯網己成為人們獲取信息的重要途徑。網絡作為信息資源平台,為人們的日常生活提供了便利快捷的服務。然而,在大量的網絡信息麵前, 如何不被淹沒,如何從海量信息中及時發現提取有價值的信息,成為互聯網信息檢索麵臨的首要問題。麵對這一挑戰, Web數據挖掘技術提供了一種比較好的解決方法。Web數據挖掘技術包括數據庫、計算機網絡和人工智能技術,Web數據挖掘技術使用了很多數據挖掘技術,但是它並不是傳統數據挖掘技術的一個簡單應用,它是一個新的研究領域。Web數據挖掘技術一般分為Web結構挖掘、Web內容挖掘、Web日誌挖掘三類。Web內容挖掘是指利用某種算法策略對網絡資源進行抽取,以期發現有用的知識,常用的策略有總結、分類、聚類和關聯分析等。Web頁麵內部結構挖掘與外部結構(鏈接分析)是Web結構挖掘的兩個主要研究方向,內部結構挖掘應用於信息抽取、網站結構模式提取和頁麵分類,鏈接分析則主要應用於搜索引擎領域。Web日誌挖掘主要通過識別用戶瀏覽模式,並通過改進Web站點結構,達到用戶能夠更加方便瀏覽的目的,以此來吸引更多的用戶訪問站點。

Web數據挖掘與搜索引擎聯係緊密,校園網搜索引擎除了使用傳統搜索引擎相關的理論和技術方法外,還需要新的方法和技術來滿足學校師生要求,Web數據挖掘的很多技術可以應用在校園網的搜索引擎中,Web內容挖掘能對互聯網上海量的網頁信息進行總結、分類、集群、關聯分析和趨勢預測等。通過對網頁內容的挖掘,可以實現網頁的聚類和分類,能夠對網絡信息進行分類瀏覽和檢索,從而提高網絡信息的標引準確度,提高檢索效率。

根據數據挖掘的一般方法和相關理論,可以得出Web數據挖掘的流程圖。

網絡數據的收集主要是從Web站點上的數據信息中提取一個數據子集,主要包括頁麵數據、超鏈接信息和用戶的訪問曆史記錄等,為數據挖掘提供資源支持。數據的預處理主要是對數據源進行組織重構和加工處理,並以此構建主題數據庫,為Web數據挖掘提供相應的平台。模式發現及分析是Web數據挖掘最核心的部分,它主要是通過運用各種數據挖掘技術,從數據對象中發現潛在的、能被人所理解的知識模式,並最終發現描述性模式和預測性模式。

2.校園網搜索引擎係統架構設計

2.1 整體框架模型設計

校園網搜索引擎係統設計以智能化為目標,最大程度上滿足學校師生不同需求的查詢。係統首先收集海量的網頁信息,然後搜索引擎程序會自動對收集到的網頁內容進行分析,並通過分詞程序得到語句關鍵詞,再利用索引來構建索引數據庫。當用戶通過Web頁麵來查詢索引數據庫時,係統就會返回所有與檢索關鍵詞相匹配的網頁。一個搜索引擎係統主要由以下四部分組成,分別是:頁麵采集模塊、頁麵分析模塊、索引數據庫模塊和信息檢索模塊。從功能上來說,四部分內容既相互獨立,又相互聯係,形成一個有機的整體。