第55章 網絡信息資源檢索(1 / 3)

網絡信息資源檢索是當前進行信息全方位檢索的重要途徑,網絡信息檢索與手工信息檢索最大的區別就在於網絡信息檢索技術的特殊性、檢索範圍的廣闊和網絡信息的海量特點,這使得檢索必須依靠一定的特殊檢索工具才能完成。

一、網絡搜索引擎簡介

現代意義上的搜索引擎起源可以追溯到1990年由加拿大蒙特利爾大學學生ALANEMTAGE開發的ARCHIE。雖然當時 WEB還未出現,但網絡中的文件傳輸已經相當頻繁,而且由於大量的文件散布在各個分散的FTP主機中,查詢起來非常不便,於是A1ANEMTAGE想到開發一個可以以文件名查找文件的係統,用於檢索分散在各FTP服務器上的文件,其工作原理與現在的搜索引擎很接近,就是依靠腳本程序自動搜索網上的文件,然後對相關信息進行索引,供用戶以特定方式查詢,ARCHIE就這樣誕生了。由於ARCHIE深受用戶歡迎,在其基礎上,美國內華達SYSTEM COMPUTINGSERVICES大學於1993年開發了另—個與之非常相似的搜索工具,此時的搜索工具除了索引文件外,已能檢索網頁。當時,編程者中十分流行“機器人”一詞。電腦“機器人”(COMPUTERROBOT)是指某種能以人類無法達到的速度不間斷地執行某項任務的軟件程序。編程者開發出專門用於檢索信息的“機器人”程序,由於它像蜘蛛一樣在網絡間爬來爬去,因此,搜索引擎的“機器人”程序就被稱為“蜘蛛”(SPIDER)程序。

世界上第一個用於檢測互聯網發展規模的“機器人”程序是 MATTHEWGRAY開發的 WORLDWIDEWEBWANDERER。剛開始它隻用來統計互聯網上的服務器數量,後來則發展為能夠檢索網站域名的程序。與 WANDERER相對應,MARTIN KOSTER於 1993 年 10 月創建了 ALIWEB,它是 ARCHIE的 HTTP 版本。ALIWEB不使用“機器人”程序,而是靠網站主動提交信息來建立自己的鏈接索引,類似於現在人們熟知的YAHOO。

隨著互聯網的迅速發展,檢索所有新出現的網頁變得越來越困難,與此同時,一次檢索領域的偉大變革已經開始醞釀,一些編程者開始設想,既然所有網站都可能有連接其他網站的鏈接,那麼從跟蹤一個網站的鏈接開始,就有可能檢索整個互聯網。在MATTHEWGRAY的 WANDERER基礎上,傳統的“蜘蛛”程序工作原理得到了改進。到1993年底,一些基於新原理的搜索引擎開始紛紛湧現。

1995年後,搜索引擎進入了高速發展時期,被譽為僅次於門戶網站的互聯網第二大核心技術。作為互聯網上的一種核心技術,搜索引擎要用到信息檢索、數據庫、分布式處理、計算機網絡、人工智能、數據挖掘、自然語言處理等多領域的理論和技術,具有綜合性和挑戰性。伴隨互聯網的普及和網上信息的飛速增長,它越來越引起人們的重視。

網絡搜索引擎(SEARCHENGINE)是通過采集、標引、整合網絡信息資源,建立描述網絡資源的索引數據庫和分類數據庫,構建INTERNET網絡資源控製與檢索機製,為人們提供一個查詢網絡信息資源的檢索平台。搜索引擎實際上就是一個 WWW網站,具有易用、便捷、信息量大與靈活多樣等特點。由於其獨特的風格和優勢,目前搜索引擎已經成為人們檢索互聯網絡信息資源必不可少的導航工具。網絡搜索引擎是對網絡信息資源進行搜索最有效的手段。在互聯網發展初期,網站相對較少,信息查找比較容易。但隨著互聯網的迅猛發展,網上信息已呈爆炸性增長,據估計,全球目前的網頁超過5500億個,而且還在以每天100萬頁以上的速度增加。用戶要在如此浩瀚的信息海洋裏尋找信息,如同大海撈針、沙中淘金,難度巨大且很容易無功而返。於是,一些為滿足大眾信息檢索需求的專業搜索網站———搜索引擎便應運而生了。

搜索引擎以一定的策略在互聯網中搜集、尋找信息,對符合檢索要求的信息進行理解、提取、組織、處理,為用戶提供檢索服務,起到信息導航的作用。搜索引擎僅次於電子郵箱,排在用戶使用各種互聯網服務排名的第2位,同時86.9%的用戶得知新網站的主要途徑是通過搜索引擎,搜索引擎已成為未知狀態下發現有效信息最有效的方式,是網絡生活中必不可少的工具,是遨遊網絡世界的指南針和地圖。

二、網絡搜索引擎的特點

搜索引擎是一種搜索因特網信息的軟件係統,也是因特網的導航工具,它通過采集、標引因特網資源,將因特網中的信息資源進行整理和分類,形成一個完整的集合,完成對因特網海量信息資源的控製與檢索,其目的是方便用戶查找所需的信息。搜索引擎在其發展過程中,形成自己的有別於其他檢索工具的特點。

(1)使用方便。搜索引擎一般由分類目錄和關鍵詞檢索兩部分組成。如果用戶隻是想了解某一領域的信息,暫不準備對此作進一步深入、細致的調查研究,那麼分類目錄可以讓用戶僅僅通過瀏覽的方式就可以集中地找到這一類信息。分類目錄體係在按照類目檢索信息時是非常有效的,其類目主要由人工編排,通常由幾層到十幾層,用戶可以迅速找到相關站點。關鍵詞檢索提供了多種檢索方式,是搜索引擎的基本組成部分,一個搜索引擎可以沒有分類目錄,但卻極少沒有關鍵詞檢索。用戶進入某一個搜索引擎後,一般總是在比較顯著的位置看到一個關鍵詞檢索框。用戶隻要在檢索框內輸入一個檢索表達式,然後按下確認鍵,很快就會顯示檢索結果。檢索表達式可以是一個詞或幾個詞,甚至是一句普通的提問句。不同的搜索引擎對檢索表達式的構成有不同規則,同一個檢索表達式用於不同的搜索引擎,返回的檢索結果也不盡相同。

(2)信息量大。搜索引擎並不局限於提供單一的網絡信息資源的查找,在作為綜合性百科性查詢工具時,還針對特定類型的信息及用戶群,提供特殊的查詢工具。如重大新聞、投資信息、股票信息、體育娛樂信息等。

(3)檢索方法多樣。搜索引擎通常既支持分類檢索,又支持主題檢索;既提供滿足一般用戶要求的簡單檢索,又提供滿足專業用戶要求的高級檢索。簡單檢索就是在關鍵詞輸入框中輸入一個或幾個關鍵詞,然後提交給搜索引擎。簡單檢索結果往往不夠精確,因為使用一些出現頻率較高的詞,反饋的結果很多,用戶難於取舍;如果選擇的詞很生僻,則反饋結果可能都不是用戶所需要的。因為一個或幾個單詞很難完整表達用戶的檢索要求。因此一般搜索引擎在提供布爾邏輯檢索的基礎上,還提供截詞檢索、字符串檢索、字段檢索、位置檢索、自然語言檢索、概念檢索等,有的甚至能從字段、範圍、時間、語言、信息類型、網站等方麵進行必要的限定。此外搜索引擎一般都能保留檢索式並能對其進行修改,實現二次檢索。搜索引擎還可以提供一些新方法來對用戶的檢索要求進行邏輯條件限製和特殊操作符限製,力爭提高檢索結果的正確率。這些方法通常被稱為高級檢索,也就是常見的複雜檢索。不同的搜索引擎所提供的高級檢索有很多相似之處,隻是有些搜索引擎整體水平較高,具備許多複雜功能,如邏輯檢索和使用特殊操作符等。

(4)檢索結果形式多樣。搜索引擎可以根據用戶的不同需要,讓用戶選擇不同的顯示格式、詳簡程度和結果排序標準,如按相關度、URL、域名、字母等排序,也可以直接顯示結果,刪除重複的鏈接。如有些搜索引擎是按搜索結果和用戶輸入的關鍵詞的關聯程度來排列的,關鍵詞出現越多的結果排得越靠前,在相關度排序的同時,越知名的站點排得越靠前。

(5)重視易用性。為了充分提高訪問量,搜索引擎網站都以易用性作為自己的建設目標。因為如果引擎搜索辦法過於複雜,使用不方便,就喪失了引擎在效率上優勢,檢索效率不高,也就談不上使用率。為方便更多人使用搜索引擎,搜索引擎一般都針對不同用戶群的知識結構和需求提供相關的搜索功能,在提高搜索引擎的智能化程度的同時使之更加簡便易用,使搜索引擎在學科領域知識和語言知識方麵可給用戶充分的支持,使用戶的認知負擔降到最低程度。比如有些搜索引擎已體現出很強的智能檢索的功能,用戶不需要記憶任何符號,按照書寫習慣輸入查詢請求,就可得到檢索結果。

(6)搜索的範圍不同。綜合性搜索引擎通常以全球的因特網資源為目標,而一些中、小型搜索引擎則致力於某一區域或某一領域的專業資料信息。綜合性搜索引擎的範圍雖然廣 泛,但就某一區域或某一領域而言,不一定有中、小型搜索引擎信息收集的豐富和完備。雖然搜索引擎麵對最多的是 WWW 資源,但有的搜索引擎隻收集 WWW 資源,而有的搜索引擎除收集 WWW 資源外,還收集BBS、FTP、GOPHER、NEWGROUP等資源。

(7)搜索引擎使用的數據庫容量不同。不同的搜索引擎,其數據庫的容量相差很大,有的已達2.5億個網頁(ALTAYLSTA),而有的還不到百萬個網頁。

(8)用戶界麵友好。各種搜索引擎在保證功能齊全的基礎上,都盡力保持用戶界麵的友好,避免花哨和過多的廣告。

(9)搜索響應速度不同。搜索響應速度通常情況下不是由搜索引擎運行速度決定的,而是由網絡傳輸的速度決定的,因此連接不同的網絡直接影響到搜索的速度。

(10)更新周期不同。因特網上的信息資源始終處於不斷變化發展之中,一個好的搜索引擎,除了內容豐富、查找迅速外,還應該對數據庫中已有內容進行審核、更新,及時刪除死鏈接、壞鏈接。

三、網絡搜索引擎的分類

目前,INTERNET上已有數千個能提供檢索服務的站點,這些站點的搜索引擎在收錄的範圍、內容、檢索方法上都各有不同,采用的技術也各具特色。因此站在不同的視角,采用不同的劃分標準,搜索引擎可以被分為多種不同的類型。按索引方法劃分搜索引擎,可以分為分類目錄型和主題索引型;按檢索功能分,可以分為獨立型和多元型;按檢索內容分,可以分為專業型和綜合型等。但總的來看,根據它們所基於的檢索技術原理,—般可把它們分成3大類:主題索引/機器人(ROBOT)搜索引擎、分類目錄式(DIRECTORSEARCHENGINE)搜索引擎和元搜索引擎(META-SEARCHENGINE)。下麵對幾種常用的搜索引擎類型進行介紹。

(一)主題索引型搜索引擎

主題索引型搜索引擎,也稱機器人(ROBOT)搜索引擎,它的一個重要特征是通過網絡搜索軟件和ROBOT程序(ROBOT,即一個用C++、PERL、JAVA或其他語言編寫的網頁自動搜索程序,它可以運行在 UNIX、SOLARIS、WINDOWS、NT、OS/2和MAC等平台上),自動、定期搜集各種 WEB頁麵和信息,並存入搜索引擎數據庫。其工作原理為:首先,由自動搜索軟件ROBOT根據所給的網絡地址(URL)自動對目的網頁進行瀏覽,並將網頁內容存儲在搜索引擎的數據庫中,同時,它還會根據網頁的鏈接遍曆 WWW中的其他站點,進一步提取其他網頁,或轉移到其他站點上,直到沒有滿足要求的新網頁或網站為止。然後將獲得的站點信息形成—個巨大的網頁信息庫以備用戶查詢。當用戶通過查詢內容提出檢索要求時,係統就會在數據庫中找到相關內容,並按照既定規則進行排序輸出。

主題搜索引擎一般使用大型數據庫來搜集和組織網絡資源,大多都有搜集記錄、索引記錄、搜索索引和提交搜索結果等功能。有的主題索引搜索引擎也提供分類目錄,但這是網頁分類目錄,而不是網站分類目錄。主題索引型搜索引擎的主要特點是通過ROBOT自動尋找網絡資源並編製索引摘要,減少了人工作業;信息量大,數據庫規模大,資源收錄多、全,結果更新及時,信息搜集速度快。但用戶使用它查詢網絡信息時,往往檢索結果多且複雜,搜索到的資源良莠不齊,查詢結果準確度低,一般需要配合相應的語法規則和限製符號。目前,常用的主題索引型搜索引擎主要有GOOGLE、ALTAVISTA、EXCITE、FASTSEARCH、HOTBOT、GO(INFOSEEK)、LYCOS、NORTHERNLIGHT等,國內有天網、悠遊等。

(二)分類目錄型(DIRECTORSEARCHENGINE)搜索引擎

分類目錄型搜索引擎,主要提供按類別編排的INTERNET網絡站點目錄,這個目錄是一個可檢索和查詢的等級式,以超文本鏈接方式把不同資源類型劃分到不同類別的目錄中,各類目錄下麵引出屬於這一類別的網站名稱和網址鏈接以及每個網站的內容簡介。每一大類下根據需要分設多級下位類目。它類似分類法的分類類目檢索方式,適合用戶進行某一主題範圍內信息的族性檢索。

它的工作原理:首先,係統雇用的大量編輯會進行廣泛的網站或網頁搜集。這些編輯在訪問某個 WEB站點時,會對該站點作適當的描述,並根據站點的內容和性質將其歸為一個預先分好的類別,再把站點的URL和描述放在該類別中,建立目錄數據庫。檢索子係統,一般提供關鍵詞搜索或按分類目錄查找兩種信息查詢方式,用戶在查詢信息時,隻需按分類目錄逐層查找,搜索引擎就會將找到的相關網站名稱、網址及內容簡介顯示在屏幕上,用戶單擊網站名稱即可進入相應的網站。用戶在進行信息查詢時,隻要遵循係統的分類體係按圖索驥、層層深入即可,操作比較簡單。另外,由於分類目錄型搜索引擎一般由專業人員精心編製,依靠人工來評價描述網站,檢索結果的信息相關度和精確度較高,因此用戶從目錄搜索所得到結果的查準率一般比較高,參考價值也比較高。

但是隨著互聯網網站和信息爆炸式的增長,人工標引速度慢,費時費力,成本高等不足也在目錄搜索中顯露出來,使得目錄式搜索引擎采集信息的速度跟不上網絡信息資源的增長速度,表現出搜索範圍較小,查全率較低的缺點,對偏僻主題、新興學科、交叉學科不能很好地涵蓋,類目間的交叉還會導致重複和資源浪費。這些問題都在一定程度上影響了目錄搜索查詢結果的時效性。

常用的分類目錄型搜索引擎主要有YAHOO、DIRECTHIT、BRITANNICA、OPEN DIRECTORYPROJECT(DMOZ),國內的搜狐、新浪、網易搜索也都屬於這一類。

目錄搜索引擎與ROBOT搜索引擎最主要的區別在於目錄搜索引擎是通過人工方式進行資源搜集,而ROBOT搜索引擎采用的是“機器人”程序進行資源的搜集。

(三)元搜索引擎

元搜索引擎(META-ENGINE)又稱為多元型搜索引擎,是一種建立在多個獨立搜索引擎基礎上調用這些獨立搜索引擎功能的一種集成搜索引擎,也稱“搜索引擎之母(THE MOTHEROFSEARCHENGINE)”。元搜索引擎的實質是對多個獨立搜索引擎的整合、調用、控製和優化利用。相對元搜索引擎,可被利用的獨立搜索引擎稱為“源搜索引擎”(SOURCEENGINE)或“搜索資源”(SEARCH RESOURCES),調用、控製和優化利用元搜索引擎的技術稱為“元搜索技術”(META-SEARCHINGTECHNIQUE),元搜索技術是元搜索引擎的核心。

元搜索引擎一般沒有自己的網頁索引數據庫。它通過將用戶的檢索命令轉發給各獨立的搜索引擎,待它們完成查詢任務並反饋結果後,再由元搜索引擎自己處理後提供用戶使用。元搜索引擎的工作方式分串行處理和並行處理,串行處理準確性高,但速度慢;並行處理速度快,但內容重複多。

元搜索引擎為各搜索引擎提供了一個統一的檢索界麵,它由用戶提問處理、檢索機製督導、結果加工處理和結果頁麵製定四部分組成。檢索時,用戶遞交檢索請求,元搜索引擎將請求根據不同搜索引擎轉化為可進行查詢的表達式,調用元搜索引擎進行搜索,各獨立的搜索引擎進行獨立查詢,並將查詢的記錄提交,元搜索引擎對查詢結果進行彙集、篩選、刪並等優化處理後,以統一的格式在同一界麵集中顯示。元搜索引擎雖沒有網頁搜尋機製,也沒有獨立的索引數據庫,但在檢索請求提交、檢索代理和檢索結果顯示等方麵,均有自己研發的特色元搜索技術支持。如提交檢索請求時,根據元搜索引擎的特點和技術參數,指定優先順序,並對檢索時間、檢索結果數量進行控製;作為若幹元搜索引擎的檢索接口代理,元搜索引擎必須具有較強的字符和語法轉換功能,使用戶的檢索請求能夠被具有不同語法特點的不同的獨立搜索引擎所認知和接受;而對檢索結果的顯示,不同的元搜索引擎有不同的處理技術;對元搜索引擎設定的檢索結果排序依據、最大返回結果數量、相關度參數及優化機製等也是不同的。

與獨立的搜索引擎相比,元搜索引擎的優點是:

(1)它能夠同時檢索幾個搜索引擎,擴大了檢索範圍,提高了檢全率。

(2)它為多個搜索引擎提供統一的檢索界麵,方便用戶,節省用戶檢索時間和費用。

但是它仍存在許多局限性,如檢索速度慢,檢索功能簡單,隻能進行基本的單詞、短語和簡單的布爾邏輯檢索,複雜檢索效果較差。盡管元搜索引擎存在著這樣那樣的功能局限,但它以涵蓋較多的搜索資源,能夠在盡可能短的時間內提供相對全麵、準確的檢索結果等諸多優異功能,受到用戶的青睞,已逐漸成為—種不可或缺的極具潛力的網絡檢索工具。

著名的元搜索引擎有INFOSPACE、DOGPILE、VIVISIMO等。中文元搜索引擎中具代表性的有搜狐搜索、優客搜索。在搜索結果排列方麵,有的直接按來源引擎排列搜索結果,如DOGPILE;有的則按自定的規則將結果重新排列組合,如VIVISIMO。

(四)其他搜索引擎

除了以上介紹的幾種搜索引擎分類外,還有一些值得注意的搜索引擎。1.全文搜索引擎

全文搜索引擎(FULLTEXTSEARCHENGINE)是名副其實的搜索引擎,國外具代表性的有 GOOGLE、FAST/ALLTHE WEB、ALTAVISTA等,國內著名的有百度(BAIDU)。它們都是通過從互聯網上提取的各個網站的信息(以網頁文字為主)建立起的數據庫中檢索與用戶查詢條件匹配的相關記錄,然後按一定的排列順序將結果返回給用戶,因此它們是真正的搜索引擎。從搜索結果來源的角度,全文搜索引擎又可細分為兩種。一種是擁有自己的檢索程序(INDEXER),俗稱“蜘蛛”(SPIDER)程序或“機器人”(ROBOT)程序,並自建網頁數據庫,搜索結果直接從自身的數據庫中調用,如上麵提到的幾家引擎;另一種則是租用其他引擎的數據庫,並按自定的格式排列搜索結果,如LYCOS引擎。

2.集合式搜索引擎

2002年底推出的搜索引擎 HOTBOT是這類搜索引擎的代表。該引擎類似元搜索引擎,但區別在於不是同時調用多個引擎進行搜索,而是由用戶從提供的幾個被選搜索引擎當中選擇需要調用的獨立搜索引擎,因此叫它“集合式”搜索引擎更確切些。

3.門戶搜索引擎

如AOLSEARCH、MSN SEARCH等。雖然提供搜索服務,但自身既沒有分類目錄也沒有網頁數據庫,其搜索結果完全來自其他引擎。

4.免費鏈接列表(FREEFORALLLINKS,FFA)

這類網站一般隻簡單地滾動或排列鏈接條目,少部分有簡單的分類目錄,不過規模比起YAHOO等目錄索引來要小得多。

當前人們還利用其他網絡信息技術開發設計了不同功能和類型的網絡搜索引擎。如信息過濾技術、網絡信息挖掘技術、信息推送技術和中間件技術等。

信息過濾是根據用戶的興趣或偏好自動地搜集和用戶興趣相關的信息並推薦給用戶的過程。用戶的興趣是相對穩定的,所以用戶的信息需要也是相對穩定的,當有新的信息到達的時候,信息過濾係統需要判斷是否推薦給用戶。信息檢索和信息過濾是兩個很相近的概念,它們都是為了方便用戶在使用海量信息資源時如何及時地找到需要的信息而提出來的,而且兩者采用的主要技術都相同。但同時信息檢索和信息過濾又是兩個有區別的概念。兩者的主要區別如表10-3所示。