淺議紙質檔案數字化與“大數據”
工作園地
作者:楊豔麗
一個時期以來,館藏紙質檔案數字化成了各級檔案館信息化的中心工作。但也有同誌樂觀地將檔案數字化與“大數據”等同起來,似乎隻要實現了館藏檔案數字化,檔案工作就進入了“大數據”時代。這是一個誤區,需要澄清。館藏檔案數字化後的館藏電子檔案也是“大數據”中的重要組成部分。但紙質檔案數字化遠不等於“大數據”。理由有三:
第一,從大數據的類型來看。數據類型繁多是大數據的基本特征之一。它“包括結構化數據、半結構化數據和非結構化數據等”,“有圖像、聲音、視頻、社交網絡、博客甚至應用的使用習慣等”;紙質檔案數字化後的圖像型電子檔案隻是大數據中多種數據類型中的一種類型。而且是相對容易控製的那一部分。真正大量的、複雜的、不易控製的是新增檔案的電子件。以政府財政係統為例,一個市級財政管理部門使用的係統就達20多個,這些係統有的是國家財政管理部門統一配發使用的,有的是省級財政管理部門統一配發使用的,有些是單位自行開發的,還有的是從市場上購買的商品化軟件。這些係統出自不同的開發單位,使用不同的開發和運行平台,後台數據庫及數據結構也不相同,產生的電子文件格式各種各樣,這使得歸檔後的電子檔案格式也各式各樣。加上各種數據庫中產生的動態數據,僅數據類型就是十分繁雜的。一個單位尚且如此,一個行政區域內眾多單位所產生的電子檔案數據格式就更加繁雜。這樣多的檔案數據格式,與全部係統中的數據格式來比,還算是簡單的。紙質檔案數字化後的圖像型電子檔案隻是電子檔案一種類型,隻算是“大數據”的九牛一毛。
第二,從大數據的數量上看。“龐大的數據量,能達到PB甚至EB級別”是大數據的另一基本特征。依全部檔案的類型劃分,我們現在處理的紙質檔案多數是所謂的文書檔案,而更多的含有表格、圖紙、賬冊、錄音、錄像、影像的科技檔案、財會檔案、人事檔案、基建檔案、錄音檔案、錄像檔案、影像檔案等各種類型的專業檔案還沒有進入我們數字化的視線。這種相對狹隘檔案觀,僅僅從數量上看,不僅算不上“大數據”,就連“大檔案”都算不上。要實現融入“大數據”的環境,首先要取消文書檔案的稱謂,從“大檔案”的角度來看待、對待檔案數字化。就目前情況看,一個使用多個業務係統的單位,一年產生的數據量少則幾個G,多則幾十G上百G,甚至幾個T。如果將這些數據全部作為檔案歸檔管理,將是一個非常龐大的數量。依此類推,一個單位尚且如此,一個行政區域內眾多單位所產生的電子檔案將是一個令我們檔案管理者從來沒有麵對過的巨大數量級。如果不能有效地管控這一巨大數量級的電子檔案,那就不能算做是“大數據”。客觀地說,即便是實現了對這一巨大數量級的電子檔案的有效管控,也隻是“大數據”中的滄海一粟。對這些原生電子文件信息,“要按照‘增量電子化’的思路,積極進行原生電子文件的歸檔接收工作。現在,絕大多數新形成的文件都有電子版,及時把電子文件歸檔接收並納入檔案部門管理、納入檔案信息資源體係,不僅關係當前,而且涉及長遠,必須高度重視,立即抓起,抓得越早越好”。