數字圖書館中大數據存儲的應用研究
信息技術
作者:羅彬 陽靜 袁贇
【摘要】大數據時代,數據的存儲與快速存取成為圖書館管理工作中的重要問題。現代圖書館數字化的管理模式帶來更大的資料數據容量,同時也為數字圖書館的存儲功能提出了更高的要求。傳統的數據存儲和數據管理方式早已無法達到大數據存儲的要求標準。數字圖書館中大數據存儲問題還需要進一步的深入研究,並尋求順應科技發展的全新的模式來應對大數據的存儲難題。
【關鍵詞】數字圖書館;大數據;存儲;應用
圖書館、閱覽室的數據存儲係統與其他行業的存儲係統有較大不同,主要表現在:①數據量龐大。一座大型圖書館每年的數據增量可達10TB以上;②存儲周期長。圖書館數據需要較長的存儲時間,甚至可達50年以上;③數據類型多樣。現代圖書具有影像、圖像、文字、聲音等數據,均需要存儲;④高度的可靠性和安全性要求。作為一所信息化程度較高的圖書館,為了構建一個滿足業務需要的高效數據存儲係統,可以利用數據壓縮、重複數據刪除、自動精簡配置、自動分層存儲等現代數據存儲技術,對大數據進行高效的存儲和管理。
一、數字圖書館大數據存儲容量不足的問題
現代圖書館是一個十分複雜的機構,完備的圖書館除了具有對借閱人員信息、圖書還借與出人信息、圖書設備信息等硬數據進行管理外,數據量最大最複雜的當屬對圖書資料本身的軟數據管理以及現代電子圖書資料的儲存與管理,特別是大型圖書館或高校圖書館,門類齊全、借閱量大、內容及設備多樣,更使得它所產生的數據結構複雜且數據增量大。
圖書館的數據量隨時間線性增長,隨著各種類型的數字化圖書及設備越來越多,信息化程度的不斷加強,對圖書及讀者管理規範程度的不斷提高,以及讀者對資源要求的不斷加深,致使數據容量加速增長。當前大型圖書館每年的數據增量大約為20~30TB,如此浩大的數據量,對於一個擁有100TB存儲容量的圖書館一也隻能滿足3一5年的數據存儲需要,因此需要采取有效的應對措施予以解決。
日前,許多高校圖書館的存儲設備容量利用率不到50%,大有潛力可挖。在圖書館實際管理工作中,在缺乏技術的情況下,經常采取整理碎片的技術來提高存儲空間利用率和數據查詢效率,這對於一般性的小容量操作是可行的,但對於大型數據係統其耗費的時間是難以估計的。況且,碎片的整理並不能有效消除分配卷中未使用的空間,達不到精簡配置的目的。
二、數字圖書館大數據存儲容量不足的應對措施
日前許多圖書館采取的辦法是由被購買了電子圖書的商家作數據備份,這顯然不是最有效的數據存儲機製。為了大幅度提高數據存儲效率,最有效的辦法是采用數據壓縮技術和重複數據刪除技術。
1、利用壓縮技術提高空間利用率
對於書籍等圖書資料文件,其文件內和文件間存在大量的相似性關係,Delta壓縮技術則可以對文件內和文件間的數據進行比較,刪除文件內和文件間的冗餘數據,達到數據壓縮的日的,相似程度越高,壓縮比越小。