一、信息檢索原理
廣義的信息檢索包括信息的存儲和信息的檢索兩個過程。其中“存儲”是為了“檢索”,而“檢索”又必須先進行“存儲”,這是信息存儲和檢索相互依存的關係。
信息存儲與檢索的全過程示意圖如圖2-1所示。
下麵將分別對這兩個過程加以分析:
(一)存儲過程
1、文獻信息的特征
文獻信息的特征由文獻信息的外部特征和文獻信息的內容特征兩部分組成。文獻信息的外部特征包括文獻信息的題名、著者、來源、卷期、頁次、年月、類型、號碼、文種等項目。文獻信息的內容特征指的是文獻信息的主題。
2、著錄
所謂著錄就是對文獻信息的外表特征和內容特征按特定的文獻信息著錄規則進行分析、選擇和記錄的過程。文獻著錄的結果叫文獻著錄的款目。一條完整的文獻著錄款目應同時包括各文獻外表特征項和文獻的內容特征項。
3、文獻信息的特征標識
文獻著錄結果,即文獻著錄款目,必須排序方能提供檢索。所謂文獻的特征標識,又稱排檢標目,就是作為文獻著錄款目排序的依據。在文獻外部特征中,常以題名、著者、號碼等作為文獻特征標識。在文獻內容特征中,常以代表文獻內容的分類號、主題詞等作為文獻內容特征標識。
把文獻著錄款目按文獻外表特征標識排檢,可為檢索者提供從文獻外表特征入手的檢索途徑,如題名途徑、著者途徑、號碼途徑等。
把文獻著錄款目按文獻的內容特征標識排檢,可為檢索者提供從文獻內容特征入手的檢索途徑,如分類途徑、主題途徑等。
4、標引
所謂標引是指文獻信息工作人員按一定的規則和方法,把具有檢索意義的特征標識指引出來,而後作為信息存儲與檢索的依據。
標引文獻的外表特征標識比較容易,隻要準確地分辨出外表特征中可用作特征標識的項目即可,如題名項、作者項、號碼項。
標引文獻內容特征標識則比較困難,因為,在對文獻信息進行主題分析後所形成主題概念是自然語言。自然語言雖然是檢索者所熟悉的語言但由於它表述主題概念不很嚴格,存在多義詞、同義詞、近義詞缺點,從而導致誤檢和漏檢。因此,必須使用專門的、規範化的語言,即檢索語言,對文獻主題概念進行標引。檢索語言可以是一種係統符號,也可以是規範化的自然語詞,但不管是哪種,都應具有標引主題概念唯一性的作用。
(二)檢索過程
文獻信息的檢索過程分為三步:
1、分析檢索課題,進行檢索提問
信息檢索人員要從信息檢索係統中檢索到所需的信息,第一步要進行檢索提問。所謂檢索提問是檢索人員根據檢索課題的需要和檢索係統的特點,向檢索係統提出的檢索語句和查詢語句。檢索提問必須能被文獻信息檢索係統所識別和理解,否則就會問而不答或答非所問。文獻信息檢索係統能識別和理解的檢索提問,就是存儲在檢索工具中的文獻信息特征標識。因此,檢索提問必須明確表示出所需文獻信息的特征標識。
檢索提問表示所需文獻信息的特征標識,包括外表特征和內容特征兩方麵。檢索者在已知文獻信息的題名、作者或號碼的情況下,可從文獻信息的外表特征入手進行檢索提問。例如,同行者對同行的科學家比較熟悉,要想了解同行者最近發表的論文情況,這時最好采用某科學家的姓名作為檢索提問,即可獲得該作者發表論文的情況。大多數情況下,檢索者對所需文獻的外表特征不十分清楚,就要根據所需文獻的內容特征進行提問。以此進行檢索提問,常可獲得信息檢索係統比較圓滿的回答,即查準率、查全率較高。
2、選用檢索語言,標引檢索提問,形成檢索提問標識
通過對檢索課題進行分析形成的檢索提問是自然語言,用自然語言標引檢索提問,就會與用檢索語言標引的文獻特征標識發生語言不一致的矛盾,檢索結果就會產生誤檢、漏檢的現象,甚至於徒勞無益。因此,用自然語言表達的檢索提問,必須將自然語言轉化為相應的規範化的檢索語言,這樣所形成的檢索提問標識與文獻特征標識才能相互匹配。檢索者要想選用準確的檢索語言標引檢索提問,就必須具有檢索語言的基本知識,這樣才能檢索出自己所需文獻。
3、檢索提問標識與文獻信息特征標識的匹配
檢索提問標識與文獻信息特征標識的匹配過程為:將檢索者的檢索提問標識與存儲在檢索工具中的文獻特征標識進行相符性比較,凡是文獻特征的標識與檢索提問的標識相一致,或者文獻特征的標識包含著檢索提問的標識,則具有該特征標識的文獻就從檢索工具中輸出。
由上述對文獻信息的存儲過程與檢索過程的分析來看,信息檢索的原理是:為了文獻信息的充分交流和有效利用,為了文獻信息用戶能在文獻信息的海洋中準確、及時、全麵地獲取特定的文獻信息,通過對大量的、分散無序的文獻信息進行搜集、加工、組織、存儲,建成各種各樣的檢索係統(手工檢索工具、計算機檢索的各類數據庫),在統一存儲過程和檢索過程所用檢索語言的基礎上,將用戶表達檢索課題的檢索提問標識與檢索係統中表達文獻信息特征的標識進行相符性比較,凡是雙方標識一致的,或者文獻信息特征的標識包含著檢索提問的標識,就將具有這些標識的文獻信息按要求從檢索係統中輸出,輸出的文獻信息就是初步命中檢索所需的文獻信息。
檢索係統輸出的文獻信息可能是用戶需要的最終信息,也可能是用戶需要的中介信息,用戶依此中介信息的指引,再進行檢索,可以進一步獲得最終所需要的文獻信息。
二、信息檢索發展曆程
信息檢索起源於19世紀前期圖書館的參考谘詢和文摘索引工作,至20世紀40年代,索引和檢索成已為圖書館獨立的工具和用戶服務項目。在20世紀40年代以前,信息檢索還隻有手工檢索一種方式,且發展速度較為緩慢。到了四五十年代,出現了一些半機械化、機械化的檢索操作方式,如各種穿孔卡片檢索工具。這些檢索工具的誕生,一方麵打破了完全依賴手工操作的檢索方式,另一方麵也產生了組配的檢索思想,為計算機信息檢索的發展,提供了邏輯基礎。
隨著1946年世界上第一台電子計算機問世,計算機技術逐步走進信息檢索領域,並與信息檢索理論緊密結合起來;1951年,世界上出現了最早的計算機檢索係統。20世紀60年代到80年代,在信息處理技術、通訊技術、計算機和數據庫技術的推動下,信息檢索在教育、軍事和商業等各領域高速發展,得到了廣泛的應用。Dialog國際聯機情報檢索係統是這一時期的信息檢索領域的代表,至今仍是世界上最著名的係統之一。20世紀80年代出現了CD光盤這種新型的高密度存儲器,光盤存儲器以其存儲容量大、價格低廉、存取速度快等獨特的優勢,引發了信息檢索技術的第二次革命,使得光盤檢索成為信息檢索的重要組成部分。到了90年代,網絡檢索、多媒體檢索以驚人的速度迅速崛起,對傳統(相對於因特網而言)信息檢索提出了嚴峻的挑戰。1992年,因特網向全世界的社會公眾開放,並步入商業應用時期。
1994年春,網上出現了第一個web搜索引擎。到1998年,僅僅4年之後,網上的搜索引擎數量已達400個之多。網絡檢索以極低的費用、海量的信息、迅速的存取以及對多媒體功能的支持,對聯機信息檢索、光盤信息檢索造成了強大的衝擊,很快改變了計算機信息檢索的發展格局。
綜上所述,信息檢索經曆了從手工檢索到機械檢索再到計算機檢索的發展過程。
(一)手工信息檢索
手工信息檢索是指利用手工檢索工具來檢索文獻的過程,如利用文摘、題錄、索引、目錄、參考工具書等。它是通過手翻、眼看、腦子想作出判斷而完成檢索的一種傳統而又基礎的檢索方式。
1、手工信息檢索的主要優點
(1)可以邊查邊思考,隨時修改檢索策略。
(2)不需要專門的設備,檢索方法簡單、靈活。
(3)不需要檢索經費或檢索費用較低。
2、手工檢索的主要缺點
(1)檢索速度慢,效率低。
(2)檢索工具體積大,更替慢。在進行複雜問題檢索時,需要不斷更換檢索工具,耗費大量的精力和體力。
(3)查全率相對較低。
(二)脫機批處理信息檢索
20世紀50年代中期至60年代中後期是信息檢索的脫機批處理發展階段。這一時期的數據存取與數據通信能力都比較差,不能提供問答服務的檢索方式,隻能提供定題檢索服務。所謂脫機批處理方式,是指定期由專職檢索人員把許多用戶要求彙總,編製成“檢索提問式”,並以文檔的形式存儲在磁帶上,進行批量處理,並把結果提供給用戶。
1、脫機批處理信息檢索的優點
(1)可成批進行多項的檢索。
(2)一次輸入作業,輸出多種檢索結果,同時滿足不同檢索服務,如可生產出印刷版的專題書目及索引,並同時提供回溯檢索和定題檢索。
2、脫機批處理信息檢索不足之處
(1)地理上的障礙,指用戶與檢索人員距離較遠時,不便於檢索要求的表達,也不便於檢索結果的獲取。
(2)時間上的遲滯,指檢索人員定期檢索,用戶不能及時獲取所需信息。
(3)封閉式的檢索,指檢索策略一經檢索人員輸入係統就不能更改,更不能依據機檢應答來修改檢索式。
(三)聯機信息檢索
1、聯機信息檢索的應用
20世紀60年代是聯機信息檢索的研究開發試驗階段;70年代計算機分時係統的出現,通信技術的改進,使得多終端、遠距離兩地檢索信息的技術得以推廣,計算機檢索技術從脫機階段進入聯機信息檢索時期。一直到70年代末是聯機檢索地區性應用階段;80年代以後,隨著空間技術和遠程通訊技術的發展,使計算機檢索進入信息—計算機—衛星通信三位一體的新階段,即以信息、文獻不受地區、國家限製而真正實現全世界資源共享為目的的國際聯機信息檢索階段。90年代後聯機檢索隨著計算機、數據庫、通信網絡技術的發展而迅猛發展。所謂聯機信息檢索,是指信息用戶利用終端設備,通過國際通訊網絡與世界上的信息檢索係統,進行直接的人機對話,從檢索係統的數據庫中查找出用戶所需信息的全過程。
著名的國際聯機檢索係統有美國的DIALOG係統、ORBIT係統、BRS係統以及MEDLARS係統,還有歐洲的ESA/IRS係統、英國的BLAESE係統等。這些係統很快發展成為國際性情報檢索係統,數據庫種類及其檢索存儲記錄都在迅速增加,如美國的Dialog係統,1984年就有200多個數據庫,其中包括美國的《醫學索引》、荷蘭《醫學文摘》、美國《生物學文摘》、美國《化學文摘》等,如今此聯機檢索係統仍然是世界上最有影響的聯機檢索係統。
2、聯機檢查的主要特點
(1)檢索速度快,檢索效率高。一般課題均可以在幾分鍾之內完成檢索過程,且在一係列係統的檢索技術、檢索策略的保證下能達到較為理想的查全率和查準率。