信息學方法論精裝-第五章引文分析方法概述

第四卷信息計量學方法第五章引文分析方法概述

引文分析方法以其獨特的優勢成為一種重要的信息計量學方法，並被廣泛使用，下麵我們就引文分析方法的主要內容加以概述。

一、引文分析方法的理論基礎及性質

（一）引文分析方法的文獻學基礎

引文分析方法，就是利用各種數學及統計學的方法進行比較、歸納、抽象、概括等的邏輯方法，對科學期刊、論文、著者等分析對象的引用和被引用現象進行分析，以揭示其數量特征和內在規律的一種信息計量研究方法。

出於某種原因，科技文獻的作者總是在其文獻末尾列出在撰寫該文時參考或引用過的文獻"清單"。人們將這種參考或引用其他文獻的過程叫做"引證"。被引文獻與引用文獻或引用者必定存在著某種關係。M.Weinstak將引用機理歸納為15種類型：①對開拓者表示尊重；②對有關著作給予榮譽；③核對其所用的方法及儀器；④提供背景閱讀材料；⑤對自己的著作予以更正；⑥對別人的著作予以更正；⑦評價以前的著作；⑧為自己的主張尋求充分的論證；⑨提供研究者現有的著作；⑩對未被傳播、很少被標引或未被引證的文獻提供向導；（11）鑒定數據及物理常數等；（12）核對原始資料中某個觀點或概念是否被討論過；（13）核對原始資料或其他著作中的起因人物的某個概念或名詞；（14）承認他人的著作或概念；（15）對他人的優先權要求提出爭議。

從所劃分出的引用機理類型可以看出，文獻的相互引用是由科學發展的規律和科學研究活動的規律所決定的。科學學的研究反複表明，科學知識具有明顯的累積性、繼承性；任何新的學科或新的技術，都是在原有學科或技術的基礎上分化、衍生出來的，都是對原有學科或技術的發展。科技文獻是科技成果的反映和記錄。新文獻反映和記錄的新的科研成果是建立在過去所發表文獻記錄和反映舊有的科研成果的基礎之上的，是對舊有文獻和成果的繼承和發展。人類知識之所以能代代相傳，並得以累積，形成今天這樣龐大的知識體係，所依仗的就是文獻；即舊文獻對於新文獻是要發生知識轉移的。對科學研究過程中的文獻利用規律和科技工作者信息交流渠道的研究表明，科技工作者得以創造新的科研成果的知識基礎主要來源於其他文獻。將那些對自己的文獻發生了知識轉移的文獻列為參考文獻，是現代各國關於著作權的有關法律、法規所明確規定了的，也是科學活動中必須遵循的行為準則。文獻之間的這種引用關係是文獻與文獻之間知識轉移的遺跡，這就是引文分析方法得以建立的文獻學基礎。

那麼，事實上科技文獻的作者是否將那些對自己的文獻發生了知識轉移的文獻都列為了參考文獻，以及所列出的參考文獻是否都是對自己的文獻發生了知識轉移的文獻呢？人們的考察結果表明，實際的引文關係遠比上麵的分析複雜。但這並不危及引文分析方法賴以建立的文獻學基礎。

（二）引文分析方法的數學原理

引文分析方法的數學基礎是概率論與數理統計。它使用了概率分布、抽樣統計、樣本與總體的關係等基本的統計數學原理。它有時直接對總體進行分析，也常常采用抽樣的方法，用樣本的特征代表總體的特征，通過樣本內或樣本之間的特征比較，得出總體的結論（引文評價）；或通過樣本內部文獻引用關係的分析，推斷總體內部的文獻引用關係，進而推斷知識轉移關係和學科、主題之間的關係（引文網狀分析）。

既然分析的直接對象是樣本，而分析的最終結論是關於總體的，那麼，樣本對於總體就應具有充分的代表性。樣本是否對總體具有充分的代表性，是由所考察指標的分布形式和抽樣的方法決定的。為使樣本能充分地代表總體，就要求所抽取的樣本充分地大，以使樣本能將我們所要分析的總體的特征忠實地反映出來。另一方麵，如果所抽取的樣本對於總體具有充分的代表性，也不必一味強調樣本的規模，因為它畢竟是樣本。我們分析樣本，而不直接分析總體，是為了減少統計分析的工作量。隻要能充分地代表總體，樣本應盡可能地小。

引文分析方法的數學原理決定了引文測度具有宏觀性和相對性，這是在進行引文評價和利用引文測度結果時必須給予充分注意的。

引文測度是一種統計意義的宏觀測度，是對被分析對象整體的考察。既然是宏觀測度，就不應過分強調微觀的差異性。我們在對風速這一自然現象進行測度時，考察的是氣流整體的運動，而不考慮有的氣體分子在作反方向的熱運動，以及局部氣流遇到障礙物而作反方向的運動，就是這個道理。又如評選先進集體，考察的是集體這一整體是否先進，而不強調集體中人人都達到先進個人的標準，也是這個道理。有些批評引文分析方法的文章認為，被引頻次高的期刊，其被引頻次主要集中在少數文章上，許多文章幾乎不被引用，因而引文評價不科學。顯然，這種認識是不能成立的。核心期刊之所以成為核心期刊，就是因為它刊載了較多的被引頻次高的文獻。

在我們實際應用中存在著"用而不引"，即並未將有知識轉移的文獻盡數列出的現象。這是不足為怪的。因為文獻與文獻之間的知識轉移不是簡單的機械轉移。被轉移的知識要在人腦中暫駐相當時間，並經人腦加工、升華。科技人員進行一項科研並將其科研成果撰寫成論文，需經曆比較長時間的知識準備和積累。一個人不可能同時閱讀兩篇以上的文獻，他所閱讀的文獻總是有先有後的，在閱讀後一篇文獻時先前閱讀過的文獻中的有關知識程度不同地暫住在他的大腦中。當他在著錄參考文獻時難免發生"用而不引"的情況。不過這並不影響引文分析方法得以建立的文獻學基礎，因為引文分析方法建立在統計數學的統計抽樣的原理基礎之上。

有時候有人提出所列出的參考文獻並不是都對該篇文獻有知識轉移。作者在著錄引用文獻時或存在隨意性，或存在引用名家的不相幹的文獻以提高自身價值的情況。即便存在這些情況，對引文評價也是沒有多大影響的，因為這些情況對於所有分析對象是均勻分布的。如果這種情況占的比重較大，也可能受到影響的是引文網狀分析的結論。不過從過去的引文分析實踐所取得的結果來看，這種情況似乎並未對被引頻次起到決定性作用。通常代表我國科研水平的全國性學報被引頻次最高，而一般在這些刊物上發表文章的是各個學科領域的較有影響的名家，這似乎為以上認識提供了依據，但是，這些引用並非都是慕名，權威性期刊和權威人物的學術帶頭作用也是不可否認的。由學術水平較高的刊物向學術水平較低的刊物發生知識轉移，是科學研究和科技文獻發展的一般規律。此外，引文分析的結果還表明，科技期刊（即使是層次較低的刊物）的自引頻次往往大於對其他某種刊物（即使是全國性學報）的他引頻次，這說明每一種刊物及其為這種刊物撰文的作者都有其特定的研究領域和研究路向，即使在對引用文獻進行著錄時，也體現了這一點。

對評價性引文分析（如引文評刊、引文評選核心作者）來說，不是簡單地通過測度考察被引頻次的絕對值而得出結論，而是將所有考察對象的被引頻次的大小進行比較、排序，而後得出結論，即評價性引文分析是一種相對測度，而不是一種絕對測度。因而，對所有分析對象（特定的期刊或特定著者的文獻的被引頻次）都有影響的因素（如：著者引用文獻具有一定程度的隨意性；一篇文獻的著者引用多少文獻具有隨機性；被引文獻對於引用文獻的知識轉移量不同等因素）是不會對分析結論產生影響的。因為這些因素對所有分析對象的被引頻次的絕對數量和被引用的質量都有影響，即，它們的作用是均勻分布的，在進行分析比較時，已將其作用排除在測度結果之外了。