正文 第二節 信息檢索語言(1 / 3)

一、信息檢索語言基礎知識

(一)信息檢索語言的概念

信息檢索語言是指人們在加工、存儲和檢索信息時所使用的一種標識符號,也就是能夠反映出信息內容及特征的一組有規則的標識符。標引人員根據信息內容特征,依據檢索語言規則對信息進行標引,將其整理、加工、存貯在檢索係統中。同時,檢索人員根據待檢索的信息內容的特征,依據檢索語言再從檢索係統中獲取所需要的信息。因此,檢索語言是標引人員與檢索人員之間的交流媒介,也是人與檢索係統之間的交流橋梁,實質上就是雙方共同約定的一種語言。

這種在信息檢索中,用來聯係用戶需求與文獻信息的“語言”,就是信息檢索語言。因此,信息檢索語言是為了適應信息檢索的需要,並為實現信息檢索而特設的專門語言,檢索語言又稱為索引語言、標引語言、信息存貯與檢索語言、文獻檢索語言等。其作用如下:

1、可以對信息內容進行主題分析,概括出能夠代表信息主要內容的若幹個主題概念,再用檢索語言對這些概念進行標引,之後存入信息係統,保證不同的標引人員所表征的信息主題概念的一致性;

2、可以保證檢索要求和檢索結果的一致性;

3、有利於將標引、檢索用的標識符進行相符性比較,保證標引和檢索的一致性;

4、可以保證信息存儲係統化和集中化,可以使同一主題概念的信息或者與該主題相關的信息能夠集中或得到揭示,表述其相關性和同一性。

(二)信息檢索語言的種類

不同的信息檢索係統,如檢索匹配方式不同、文獻數量與類型不同、覆蓋的學科領域不同、用戶群體不同等,通常要采用不同的檢索語言,以適應不同的檢索特性的要求。即便是同一檢索係統,通常也同時采用多種檢索語言,實現多種不同的檢索途徑。因此,在信息檢索領域,為適應檢索技術的發展、檢索係統的不斷更新,先後出現了多種檢索語言,並且不斷地互相融合、促進。

從結構原理的角度,信息檢索語言有如下幾類:

,其中最常見的是等級體係分類語言,至今仍然是各類圖書館組織和檢索藏書的主要工具;而分麵組配分類語言使用的就比較少。

,主題語言的曆史不算太長,但卻在信息檢索語言中占據了重要的地位。其中,敘詞語言具備比較完善的檢索性能,其在計算機檢索係統中應用廣泛;印刷型的檢索工具通常采用標題語言來構建主題索引;元詞語言在實際的檢索係統中使用極少,但其組配方法卻被廣泛使用。

引文語言是20世紀60年代誕生的,是利用文獻之間引用與被引用關係,來表達檢索文獻的主題之間相關關係,不需要詞表,也不用標引文獻,檢索方法簡單而有效。

分類主題語言是綜合了分類和主題兩種檢索語言的特長,具備了二者的優點,性能更加完善。

不同的檢索語言可以形成不同的索引係統和標識係統,為用戶提供不同的檢索點和檢索途徑。

(三)信息檢索語言的構成及其要求

1、信息檢索語言的構成

同任何自然語言都有釋義詞典一樣,檢索語言也有自己的“詞典”——詞表,它規範著檢索語言中各個標識的概念意義及其使用,是信息檢索語言的典據和依據。從理論上看,各種檢索語言應該都有擔負這一職責的詞表,否則對檢索語言的使用就會缺乏規範,難以準確地溝通標引與檢索,容易導致檢索失誤。可見,詞表是檢索語言的構成主體,對檢索語言的研究,主要也就是對詞表的研究。

近年來,隨著信息技術的發展,全文本、超文本檢索係統大量地湧現,檢索語言呈現出自然語言化的趨勢,對檢索語言構成的上述認識就有必要予以拓展。在新的信息環境下,要注重兩點:其一,詞表雖然極為重要,卻不是完整的檢索語言。詞表是靜態的,而語言是動態的。檢索失誤既可因詞表缺陷而產生,更會因對詞表使用的不一致而產生。應該對檢索語言的使用及其環境(語境)給予充分的重視。其二,對檢索語言的研究,可以更多地吸收語言學的理論與方法,強調從語言的角度來研究檢索語言。

從語言學的角度來看,信息檢索語言的構成應分為三個部分:一是用於組成詞彙的形式化符號,通常有字母、數字或文字等;二是表達基本概念意義的詞彙;三是控製語言使用的語法,據此把基本的詞彙組合起來表達更為複雜的概念意義,主要體現為各種標引規則、組配規則、引用次序等。

2、對信息檢索語言的要求

對信息檢索語言的要求體現在其作用的兩個層次上。

(1)檢索語言應該能夠描述文獻和提問的特征,即要有充分的表達能力,能全麵、準確地描述任何複雜的文獻信息以及提問內容。具體要求如下:

a.專指性。檢索語言的基本詞彙和詞組,都應具有足夠的專指度和語義區分能力,能夠識別和區分不同的信息主題內容。

b.唯一性。檢索語言的基本詞彙和詞組,與概念意義之間應能達到一一對應,應盡可能減少同義和多義現象,以免因表達含糊而引起標引和檢索的失誤。

c.靈活性。檢索語言的基本詞彙總是有限的,不可能也不必要用基本詞彙表達所有的主題意義,應盡可能充分利用詞彙之間的靈活組合,創造出幾乎無限的表達能力。

(2)檢索語言應該能夠聯係和溝通標引與檢索兩方麵,即要求在語言的使用上應具有相當的一致性,能保證取得共同的理解和準確無誤的溝通。對此的具體要求有:

a.易用性。檢索語言是由標引、檢索人員使用的,越是容易使用的語言,在使用中越是容易保持一致。

b.嚴謹性。檢索語言應有作為語法措施的使用規則(如標引規則等),對詞彙及其組合的正確使用,給予適當的控製和指導。

c.文獻保障和用戶保障。檢索語言的基本詞彙及其組合,既要能符合文獻標引的需要,又要能滿足用戶提問的需要。

二、分類檢索語言

(一)分類語言的概念

分類語言是用分類號和相應的分類款目表達各種主題概念,它以學科體係為基礎,將各種概念按學科性質和邏輯層次結構進行分類和係統排列的信息檢索語言,又稱“分類法”“分類檢索語言”“分類法係統”。

分類語言的具體表現形式是分類表以及分類規則。

(二)分類語言的類型

分類法按編製方式可分為體係分類法、組配分類法、混合式分類法。

體係分類法是按照學科體係的層次,從上到下,從總到分的邏輯次序逐級展開,各級類目都一一列舉,事先予以固定組配,具有層累製結構的分類法,又稱為“先組式的分類法”“等級體係分類檢索語言”“等級列舉式分類法”“譜係分類法”。這種分類方法是一種比較常用的分類方法,如《中國科學院圖書分類法》(簡稱科圖法)、《中國圖書館圖書分類法》(簡稱中圖法)、《美國國會圖書館分類法》(簡稱LC)、《杜威十進製分類法》(簡稱DDC)等是最著名的體係分類法。

體係分類表是體係分類法的具體表現,因此也可稱為體係分類法。

體係分類表由類目表、分類號、類目注釋和分類法索引構成。

類目表是分類法的主體,它決定分類號的含義,是選用分類號表達文獻信息內容和檢索課題的主要依據。各種具體的分類法,其類目表的結構不盡一致,但都是由大量的類目以並列關係和等級關係為主組成的分類體係,如我國的《中圖法》,它的類目表由基本大類、簡表、詳表和複分表組成。

分類號是類目的代號,是分類標識的具體形式,它簡明、易排列,有時還能夠反映類目的層次。分類號可以用一種號碼(如數字或字母)組成,也可以用兩種號碼混合。

類目注釋是說明類目的含義、範圍、使用規則等事項,以便正確理解和使用該類目的文字。

分類法索引是為了幫助不熟識類目表邏輯體係的人,從類名及其相關名稱字順途徑查找類號的工具。

組配分類法是將不同範疇的單獨概念組配成具體類目來描述文獻信息內容的分類法,又稱“分析綜合分類檢索語言”“分麵組配式分類法”“分麵分類法”。它先將客觀事物按不同分類標準分解成若幹因素,再將這些因素歸納為各種組麵。分類時,根據文獻內容和形式的各種因素從組麵中找出相應因素。把這些因素的號碼組配起來,構成表達這一文獻信息內容的分類號(即複合類目)。

混合式分類法是組配分類和體係分類相結合的分類法,又稱“混合式分類檢索語言”。

混合式分類法分為兩種類型:組配體係分類法和體係組配分類法兩大類。組配體係分類法是先按學科設立一些基本大類,構成一個作為主幹的體係結構,然後對每一基本類進一步作分麵分類,如《冒號分類法》。體係組配分類法基本上是體係分類法,但大量采用通用複分表、專用複分表、仿分以及組配符號、合成符號等,如《國際十進分類法》。

(三)國內分類法簡介

1、我國古代分類法

我國的分類法產生於漢代。公元前6年,西漢的劉歆編製了《七略》,首創“六分法”體係,分為六藝、諸子、詩賦、兵書、術數、方技六大類。西晉荀勖等根據《魏中經簿》撰《晉中新薄》,改“六分法”為甲、乙、丙、丁四部。唐代魏征撰《隋書·經籍誌》,以經、史、子、集正式確立四部類名,“四分法”由此而生。清代永瑢、紀昀編撰《四庫全書總目》,集“四分法”之大成,又將四部劃分為44類,其中15類再分子目。

“四部分類法”的收錄內容與範圍:

經部,是封建文化的一種標誌。這一部類容納的是封建社會統治階級“認可”的必讀書,主要包括十三經、四書、古樂、文字學等方麵的書籍,以及解釋經書的著述。

史部,主要是各種體裁的史書,如紀傳體、編年體、紀事本末體史籍,也包括地理著作、政書、目錄書。史部中容納這些書的類目很多,反映了我國豐富的史籍。

子部,收錄的範圍極廣,收書比較複雜,有哲學書,也包括算書、天文、生物、醫學、農學、軍事、藝術、宗教著作、筆記小說與類書。由於時代、階級及人們對自然現象認識的局限,子部中也有一些含有極濃的迷信色彩的類目,如術數類的數學、占候、相宅相墓、占卜、命書相書等及其中包含的書籍。

集部,收曆代作家一人或多人著作的集子,一人著作的集子稱之為別集,多人著作的集子稱之為總集。曆代作家的文集既有文學作品,也包括評論詩、文、詞、曲的著作;雖以文學為主,但又不限於文學。

“四部分類法”不僅成為我國古代信息資料分類法的典範,而且至今仍是類分古籍的主要依據。1986年起編輯、出版的《中國古籍善本書目》,對其再加以修訂,分為經、史、子、集、叢書五部、50類。因此,“四部分類法”就猶如一把打開古籍寶庫的鑰匙,我們應予以很好的了解和掌握。

2、我國現代分類法

我國在長期的封建社會中,文獻分類法和其他科學文化領域一樣,一直沒有取得明顯的進步。直到近代,分類法的發展依然落後於一些發達國家。解放後,分類法有了很大發展,自編的分類法就有十幾種,比較著名的現代分類法有《中國人民大學圖書館圖書分類法》(簡稱《人大法》)、《中國科學院圖書館圖書分類法》(簡稱《科圖法》)、《中國圖書館分類法》(簡稱《中圖法》)。