一、信息檢索效果的評價指標
(一) 信息檢索效果評價指標
指標包括很多方麵,但主要的是查全率(全)、查準率(準)、新穎率(新)、檢索速度(快)、檢索方便性(便)、檢索成本效益比(省)等指標,最主要的是查全率和查準率。決定檢索效率的因素主要有檢索語言質量、標引質量、檢索質量及其他方麵的因素。檢索效率的高低既反映了一個檢索係統的檢索性能的優劣程度,也表示了對檢索效果的滿意程度。
(二)查全率與查準率的關係
利用查準率和查全率指標,可以對每一次檢索進行檢索效果的評價,為檢索策略的改進提供依據。大量的檢索效果評價試驗證明,查全率與查準率彼此表現出相互製約關係:在同一個信息檢索係統中,當查準率和查全率達到一定程度以後,二者呈互逆關係,即查全率提高,查準率就會降低,反之亦然。因而,信息檢索者應根據實際需要合理調整查全率和查準率。值得引起注意的是,隻有當查準率和查全率達到一定程度以後,兩者之間才會呈現出這種互逆關係。如果查準率和查全率都很低,那麼兩者完全可以同時得到提高。查準率與查全率之間的這種互逆關係,對於信息檢索的實踐具有極為重要的指導意義。
(三)查全率和查準率的局限性
查準率和查全率作為信息檢索效率評價的重要量化指標,其局限性主要表現在:
1、它能夠評價某次檢索的檢索效率,但不能指出是何原因產生了這樣的檢索效率。例如:兩次檢索的查準率可能完全相同,但其原因通常不會完全一樣。這樣就隻能為檢索的調整提供改進的方向,卻不能指明需要改進的具體因素及措施。
2、它以相關性為基礎,具有相關性本身所固有的局限性。例如:不考慮文獻的重要性程度等。
需要注意的是,信息檢索的效果與信息檢索係統的本身的性能,存在著密切的關聯,但是也有著顯著的區別。對於每一次檢索而言,其檢索效率的高低,不僅要依賴於檢索係統本身性能的高低,而且還要取決於本次檢索所采取的具體措施和手段。
如果一個信息檢索係統的查準、查全性能水平較低,那麼在這樣的係統中所進行的信息檢索,一般而言查準率和查全率都會比較低;但是,倘若一次檢索的措施和手段相當理想,也可能達到較高的檢索效率。反之,如果一個信息檢索係統具有較高的性能水平,那麼在這樣的係統中所進行的信息檢索,通常就容易實現較高的查準率和查全率;但是,倘若一次檢索的措施和手段都相當糟糕,就會得到較低的檢索效率。
例如:對於聯機信息檢索係統和搜索引擎,在查準、查全的性能水平上,前者要比後者高得多,但這並不意味著每一次檢索的結果也必定如此。在利用聯機係統進行檢索時,如果選詞不合理、措施和手段不當,就不可能達到係統的性能水平。同樣,在利用搜索引擎進行檢索時,如果檢索的措施和手段相當理想,完全可以超越係統的平均性能水平。
(四)影響信息檢索效果的因素