正文 知識組織視野下檔案知識庫的構建思路探析(1 / 3)

知識組織視野下檔案知識庫的構建思路探析

理論探討

作者:毛天宇

摘要:檔案知識庫是實現檔案資源知識化、知識資源有序化及知識資源服務化的重要手段。文章從知識組織的角度入手,對檔案知識庫中檔案知識點、檔案知識單元、檔案知識簇、再生的檔案知識以及檔案知識服務平台等構成要素的構建思路詳細分析,包括檔案知識點的分類標引,檔案知識點的關聯與聚類,檔案知識單元的挖掘推理與語意關聯,檔案知識的再生與利用,以及檔案知識服務平台的構建。

關鍵詞:知識組織;檔案知識庫;構建;思路

Abstract:Thebaseofarchivalknowledgeresourcesisaimportantwayoftherealizationofresourcesknowledgeable,knowledgeorderedandserviceable.Thisarticlebasedonknowledgeorganizationandanalysistheconstructionwaysoftheelementsofarchivalknowledgebase,includingtheclassificationandindexingofarchivesknowledgepoint,theassociatingandclusteringofarchivesknowledgepoint,theminingreasoningandsemanticcorrelationofarchivesknowledgeunit,theregenerationandutilizationofarchivesknowledgeandtheconstructionofarchivesknowledgeserviceplatform.

Keywords:KnowledgeOrganization;ArchivalKnowledgeBase;Construction;Ideas

當今社會檔案信息資源數據量大,信息冗餘混亂,多元信息並存且新的數據時時刻刻都在產生,檔案用戶在獲取所需的檔案信息時經常迷茫於其中而無所適從。這正反映當前檔案信息服務平台的信息組織方式與人們日益增長的知識服務需求之間不相匹配的矛盾。大數據時代的檔案信息服務業發生了很大的變化,服務核心已由實體文本服務轉向數字化資源服務,最終轉向知識化資源服務。這就需要檔案信息服務部門采用知識組織方法,構建信息豐富的檔案知識庫,使雜亂的檔案信息有序化,有序的檔案信息知識化,最終有效地服務於用戶。

檔案知識庫脫胎於海量的檔案信息資源,是對其整理加工的成果。其不僅包含檔案資源本身所記載與反映的知識內容,還包括不同檔案知識之間的關聯,文件產生、辦理中形成的背景、結構等方麵的知識,檔案資源客觀載體上呈現的顯性知識,甚至其後的知識關聯,檔案組織者、檔案人員等存儲於其腦中的經驗、閱曆等主觀的隱性知識。[1]檔案知識庫有效地融入了用戶的需求,可以支撐並服務於用戶問題的解決。因許多潛在知識並未直接記錄在檔案載體上,所以需要采取知識組織方法深度挖掘,才能構建出可利用的檔案知識庫,並有效地服務於用戶。檔案知識庫的構成要素,其具體構建思路分析如下:

1分析檔案信息資源,分類與標引檔案知識點

檔案知識點的分類及標引是在分析檔案知識點內容屬性(特征)及相關外表屬性的基礎上,按照定義好的類別將其分門別類,並用特定語言表達分析出的屬性或特征。[2]檔案知識點的分類及標引針對的是用戶所需的直接檔案信息、知識,是對檔案信息資源中知識點的發掘和形式上的組織,如可以從數字檔案、檔案全文數據庫、檔案目錄數據庫等檔案客體提取用戶所需的檔案知識,經分類標引後直接服務於用戶。對檔案知識點進行分類與標引首先要對檔案知識點(數據)進行采集,並進一步分析與檢測其是否可用、重複及是否完整等。可用性檢測主要側重於分析數據本身是否有誤或是否對用戶問題的解決有用;重複數據主要是指基本相同的數據,可能由於格式或拚寫上的差異,導致檔案信息管理係統無法區分;不完整數據主要指信息的缺失,例如檔案責任者、所屬機構、度量單位等信息的缺失等。然後要對采集到的檔案信息資源進行數據清洗,要選擇合適的策略,篩選無用數據,合並同類信息,補充完善缺失信息,最終形成用戶所需的待分類與標引的知識點集合。在對檔案知識點進行分類和標引時,可以參照《中國檔案分類法》、《中國檔案主題詞表》、網絡信息資源分類法等分類標引語言詞典進行設計,建立成套的檔案知識分類體係,形成分類明確、層次明晰、次序井然的分類標準。[3]大數據時代檔案知識點的標引可有效借助於計算機的自動標引,可采用關鍵詞標引、概念標引、語義標引、本體標引等方法來標示檔案知識點,使其具備一定的主題和屬性特征。經過檔案知識點的分類與標引,用戶所直接需要的、知識服務密度低的檔案知識集合已經形成,可以作為檔案知識庫的基礎部分,用以滿足用戶基本的檔案信息與知識需求,但許多潛在的知識尚需進一步開發,進行更深層次的知識組織。