數(shù)字檔案館指檔案收集、處理、存儲、查詢等檔案管理活動的數(shù)字化、電子化、網(wǎng)絡化,即虛擬檔案。它是基于計算機網(wǎng)絡技術、數(shù)據(jù)庫技術以及多媒體技術的發(fā)展而產(chǎn)生的新型檔案館。數(shù)字檔案館是一個數(shù)字化的信息系統(tǒng),它把分散于不同載體不同地理位置的信息資源以數(shù)字化的形式存貯,以網(wǎng)絡方式互相聯(lián)結,從而提供及時利用,實現(xiàn)資源共享。
全文數(shù)據(jù)庫建設的問題
在實際中有一種讓人說不清的現(xiàn)象,就是建設數(shù)字檔案館中,并不十分關注檔案全文數(shù)據(jù)庫建設的問題,其表現(xiàn):
1.忽略檔案全文數(shù)據(jù)庫建設
一是忽略檔案全文數(shù)據(jù)庫建設。如國家檔案局的《數(shù)字檔案館建設指南》雖然指出:“數(shù)字檔案資源建設是數(shù)字檔案館建設的核心內(nèi)容”,但是,在整部《數(shù)字檔案館建設指南》中沒有提及檔案全文數(shù)據(jù)庫建設的問題,根本沒有對檔案全文數(shù)據(jù)庫建設的要求。在國家檔案局《數(shù)字檔案館系統(tǒng)測試辦法》中也同樣沒有提及檔案全文數(shù)據(jù)庫的問題,也沒有對檔案全文數(shù)據(jù)庫建設的要求,而僅僅有對檔案目錄數(shù)據(jù)庫的要求。
2.忽略檔案全文數(shù)據(jù)庫建設
二是誤讀檔案全文數(shù)據(jù)庫。在許多數(shù)字檔案館建設的地方,大都稱已建立了檔案全文數(shù)據(jù)庫,但是,也不知是不理解什么是檔案全文數(shù)據(jù)庫,還是誤解檔案全文數(shù)據(jù)庫,實際并沒有建立檔案全文數(shù)據(jù)庫,而是將檔案全文掃描圖像誤認為是檔案全文數(shù)據(jù)庫。實際只是對檔案原文進行圖像數(shù)字化掃描,生成的只是一幅幅圖像,并不能對其內(nèi)容進行直接檢索,而是通過掛接到檔案目錄數(shù)據(jù)庫,靠檢索檔案目錄來指引查閱檔案原文。這種現(xiàn)象從一些地方數(shù)字檔案館的建設費用上就可以看出來。例如,一個通過國家示范數(shù)字檔案館測試的檔案館,共投資560萬元,包括機房、軟硬件平臺、數(shù)字檔案館管理軟件、“加工檔案96779卷,建成了159萬條目錄數(shù)據(jù)庫、1085萬頁全文數(shù)據(jù)庫、36027張照片數(shù)據(jù)庫、11160分鐘的多媒體數(shù)據(jù)庫,12809條圖書資料目錄數(shù)據(jù)庫”等。一般加工一頁全文檔案(掃描、文字識別、校對)至少1元,而且年代越遠的檔案其加工成本會更高。那么,僅1085萬頁全文就需要資金1085萬,僅此一項幾乎是總投資2倍。所以,可以肯定其不是全文數(shù)據(jù)庫,而只是全文圖像數(shù)據(jù)庫,也就是無法進行檔案全文檢索的檔案信息。
3.對檔案全文數(shù)據(jù)庫文字識別的標準問題
三是對檔案全文數(shù)據(jù)庫文字識別的標準問題。對于檔案全文數(shù)據(jù)庫最基礎的紙質(zhì)檔案資源的數(shù)字化加工,檔案行業(yè)標準《紙質(zhì)檔案數(shù)字化技術規(guī)范》(DA/T31—2017)根本沒有有關檔案全文文字識別的問題,該規(guī)范只對紙質(zhì)檔案數(shù)字化掃描圖像的分辨率做了規(guī)定。也就是對于檔案全文的數(shù)字化文字識別的問題根本沒有標準。對于文字識別率的問題,有專家認為:“識別率一般達到90%以上,已經(jīng)基本滿足檔案全文檢索的需要了。有的人片面追求識別率,一定要求識別率達到98%-99%的,反復校對,實際上是浪費人力物力。”實際90%的識別率對檔案全文檢索還是有相當影響的,達到98%-99%可能有些要求高,至少應該在95-98%以內(nèi)。但是,OCR只能對現(xiàn)代正規(guī)的打印體識別率較高,對于手寫體、鋼板刻字以及打字機打字蠟紙油印的字體的識別率并不高,特別是前兩者。至于豎版的檔案就更別說了。而在市縣級檔案館保存的檔案中,現(xiàn)代正規(guī)的打印體的并不多,大部分都是后者。就像計算機的普及一樣,先省后市,然后才是縣鄉(xiāng),先經(jīng)濟發(fā)達地方,后經(jīng)濟落后地方,從手寫到鋼板刻字再到打字機打字,也是如此。
近日,知識管理專家會博通“知識檢索功能”及“百度OCR”功能上線,將以更前沿的技術手段,更便捷的檔案數(shù)字化管理方式,提升對全文數(shù)字庫的管理,從而提升數(shù)字檔案館的管理效益。