您當前位置：會博通軟件科技 >> >> >>

沒有全文數字庫還是不是好的數字檔案館？

2021/3/1 16:58:16 來源：作者：小博瀏覽量： 432

數字檔案館指檔案收集、處理、存儲、查詢等檔案管理活動的數字化、電子化、網絡化，即虛擬檔案。它是基于計算機網絡技術、數據庫技術以及多媒體技術的發展而產生的新型檔案館。數字檔案館是一個數字化的信息系統，它把分散于不同載體不同地理位置的信息資源以數字化的形式存貯，以網絡方式互相聯結，從而提供及時利用，實現資源共享。

全文數據庫建設的問題

在實際中有一種讓人說不清的現象，就是建設數字檔案館中，并不十分關注檔案全文數據庫建設的問題，其表現：

1.忽略檔案全文數據庫建設

一是忽略檔案全文數據庫建設。如國家檔案局的《數字檔案館建設指南》雖然指出：“數字檔案資源建設是數字檔案館建設的核心內容”，但是，在整部《數字檔案館建設指南》中沒有提及檔案全文數據庫建設的問題，根本沒有對檔案全文數據庫建設的要求。在國家檔案局《數字檔案館系統測試辦法》中也同樣沒有提及檔案全文數據庫的問題，也沒有對檔案全文數據庫建設的要求，而僅僅有對檔案目錄數據庫的要求。

2.忽略檔案全文數據庫建設

二是誤讀檔案全文數據庫。在許多數字檔案館建設的地方，大都稱已建立了檔案全文數據庫，但是，也不知是不理解什么是檔案全文數據庫，還是誤解檔案全文數據庫，實際并沒有建立檔案全文數據庫，而是將檔案全文掃描圖像誤認為是檔案全文數據庫。實際只是對檔案原文進行圖像數字化掃描，生成的只是一幅幅圖像，并不能對其內容進行直接檢索，而是通過掛接到檔案目錄數據庫，靠檢索檔案目錄來指引查閱檔案原文。這種現象從一些地方數字檔案館的建設費用上就可以看出來。例如，一個通過國家示范數字檔案館測試的檔案館，共投資560萬元，包括機房、軟硬件平臺、數字檔案館管理軟件、“加工檔案96779卷，建成了159萬條目錄數據庫、1085萬頁全文數據庫、36027張照片數據庫、11160分鐘的多媒體數據庫，12809條圖書資料目錄數據庫”等。一般加工一頁全文檔案（掃描、文字識別、校對）至少1元，而且年代越遠的檔案其加工成本會更高。那么，僅1085萬頁全文就需要資金1085萬，僅此一項幾乎是總投資2倍。所以，可以肯定其不是全文數據庫，而只是全文圖像數據庫，也就是無法進行檔案全文檢索的檔案信息。

3.對檔案全文數據庫文字識別的標準問題

三是對檔案全文數據庫文字識別的標準問題。對于檔案全文數據庫最基礎的紙質檔案資源的數字化加工，檔案行業標準《紙質檔案數字化技術規范》（DA/T31—2017）根本沒有有關檔案全文文字識別的問題，該規范只對紙質檔案數字化掃描圖像的分辨率做了規定。也就是對于檔案全文的數字化文字識別的問題根本沒有標準。對于文字識別率的問題，有專家認為：“識別率一般達到90%以上，已經基本滿足檔案全文檢索的需要了。有的人片面追求識別率，一定要求識別率達到98%-99%的，反復校對，實際上是浪費人力物力。”實際90%的識別率對檔案全文檢索還是有相當影響的，達到98%-99%可能有些要求高，至少應該在95-98%以內。但是，OCR只能對現代正規的打印體識別率較高，對于手寫體、鋼板刻字以及打字機打字蠟紙油印的字體的識別率并不高，特別是前兩者。至于豎版的檔案就更別說了。而在市縣級檔案館保存的檔案中，現代正規的打印體的并不多，大部分都是后者。就像計算機的普及一樣，先省后市，然后才是縣鄉，先經濟發達地方，后經濟落后地方，從手寫到鋼板刻字再到打字機打字，也是如此。

近日，知識管理專家會博通“知識檢索功能”及“百度OCR”功能上線，將以更前沿的技術手段，更便捷的檔案數字化管理方式，提升對全文數字庫的管理，從而提升數字檔案館的管理效益。