正文 淺議紙質檔案數字化與“大數據”(2 / 2)

第三,從“大數據”的處理方式上來看,“大數據”的核心是對龐大數據進行檢索與運算。“檔案大數據”的關鍵信息需通過一定的技術方法進行提取,並針對提取出的有效信息根據一定的規律進行挖掘。要實現這一點,智能化的檢索分析軟件與經過統一標引的基礎數據至關重要。智能化的檢索分析軟件,我們可以通過購買解決(暫不考慮我們是否有能力選擇購買到性價比高的檢索分析軟件),而經過統一標引的基礎數據隻能由檔案館工作人員自行完成。問題是許多基層檔案工作者包括領導者並不清楚這一點,以為隻要將紙質檔案一掃描,圖像文件就可通過計算機和網絡檢索到了;檔案中任何內容都可隨意檢索和查找到。殊不知,如果沒有智能化的檢索分析軟件和對紙質檔案掃描件的細致標引或全文識別,所有通過掃描產生的電子檔案隻是些沒有用處的電子圖像文件。問題是沒有多少基層檔案館知道並在下大氣力做紙質檔案掃描後形成的電子檔案的標引或全文識別工作。未經處理的紙質檔案掃描件,不僅不是“大數據”,甚至都算不上有用的數據。掃描得越多,浪費就越大。

綜上所述,紙質檔案數字化是檔案數字化組成部分,但不是檔案數字化全部。紙質檔案數字化與“大數據”密切相關,但完全不能等同於“大數據”。在“大數據”環境下,我們不僅要做好紙質檔案數字化——存量數字化,也要做好原生電子文件接收管理——增量電子化,還要將各業務部門通過業務係統產生的業務數據轉為檔案數據,這樣才能在數量上向“大數據”靠攏。要適應“大數據”環境的要求,並有所作為,我們還有許多的工作需要做,還有許多的東西需要學習,千萬不可隻滿足於館藏檔案的數字化。

(作者單位:開封市隴海醫院 來稿日期:2014-04-08)