极品美女在线观看国产一区-极品嫩模一区二区三区-极品人妻被黑人中出-极品少妇xxxxⅹ另类-极品少妇xxxx精品少妇-极品少妇XXXX精品少妇偷拍

沒有全文數字庫還是不是好的數字檔案館?

2021/3/1 16:58:16       來源:        作者:小博       瀏覽量:  432

數字檔案館指檔案收集、處理、存儲、查詢等檔案管理活動的數字化、電子化、網絡化,即虛擬檔案。它是基于計算機網絡技術、數據庫技術以及多媒體技術的發展而產生的新型檔案館。數字檔案館是一個數字化的信息系統,它把分散于不同載體不同地理位置的信息資源以數字化的形式存貯,以網絡方式互相聯結,從而提供及時利用,實現資源共享。



全文數據庫建設的問題


在實際中有一種讓人說不清的現象,就是建設數字檔案館中,并不十分關注檔案全文數據庫建設的問題,其表現:

 

1.忽略檔案全文數據庫建設

一是忽略檔案全文數據庫建設。如國家檔案局的《數字檔案館建設指南》雖然指出:“數字檔案資源建設是數字檔案館建設的核心內容”,但是,在整部《數字檔案館建設指南》中沒有提及檔案全文數據庫建設的問題,根本沒有對檔案全文數據庫建設的要求。在國家檔案局《數字檔案館系統測試辦法》中也同樣沒有提及檔案全文數據庫的問題,也沒有對檔案全文數據庫建設的要求,而僅僅有對檔案目錄數據庫的要求。

 

2.忽略檔案全文數據庫建設

 

二是誤讀檔案全文數據庫。在許多數字檔案館建設的地方,大都稱已建立了檔案全文數據庫,但是,也不知是不理解什么是檔案全文數據庫,還是誤解檔案全文數據庫,實際并沒有建立檔案全文數據庫,而是將檔案全文掃描圖像誤認為是檔案全文數據庫。實際只是對檔案原文進行圖像數字化掃描,生成的只是一幅幅圖像,并不能對其內容進行直接檢索,而是通過掛接到檔案目錄數據庫,靠檢索檔案目錄來指引查閱檔案原文。這種現象從一些地方數字檔案館的建設費用上就可以看出來。例如,一個通過國家示范數字檔案館測試的檔案館,共投資560萬元,包括機房、軟硬件平臺、數字檔案館管理軟件、“加工檔案96779卷,建成了159萬條目錄數據庫、1085萬頁全文數據庫、36027張照片數據庫、11160分鐘的多媒體數據庫,12809條圖書資料目錄數據庫”等。一般加工一頁全文檔案(掃描、文字識別、校對)至少1元,而且年代越遠的檔案其加工成本會更高。那么,僅1085萬頁全文就需要資金1085萬,僅此一項幾乎是總投資2倍。所以,可以肯定其不是全文數據庫,而只是全文圖像數據庫,也就是無法進行檔案全文檢索的檔案信息。

 

3.對檔案全文數據庫文字識別的標準問題

 

三是對檔案全文數據庫文字識別的標準問題。對于檔案全文數據庫最基礎的紙質檔案資源的數字化加工,檔案行業標準《紙質檔案數字化技術規范》(DA/T31—2017)根本沒有有關檔案全文文字識別的問題,該規范只對紙質檔案數字化掃描圖像的分辨率做了規定。也就是對于檔案全文的數字化文字識別的問題根本沒有標準。對于文字識別率的問題,有專家認為:“識別率一般達到90%以上,已經基本滿足檔案全文檢索的需要了。有的人片面追求識別率,一定要求識別率達到98%-99%的,反復校對,實際上是浪費人力物力。”實際90%的識別率對檔案全文檢索還是有相當影響的,達到98%-99%可能有些要求高,至少應該在95-98%以內。但是,OCR只能對現代正規的打印體識別率較高,對于手寫體、鋼板刻字以及打字機打字蠟紙油印的字體的識別率并不高,特別是前兩者。至于豎版的檔案就更別說了。而在市縣級檔案館保存的檔案中,現代正規的打印體的并不多,大部分都是后者。就像計算機的普及一樣,先省后市,然后才是縣鄉,先經濟發達地方,后經濟落后地方,從手寫到鋼板刻字再到打字機打字,也是如此。

 

近日,知識管理專家會博通“知識檢索功能”及“百度OCR”功能上線,將以更前沿的技術手段,更便捷的檔案數字化管理方式,提升對全文數字庫的管理,從而提升數字檔案館的管理效益。