使用效果如下圖。直接在會博通搜索引擎上輸入搜索文字,結果反饋除了文檔格式之外,還包括PDF等圖片格式。
OCR技術指的是,對文本資料的圖像文件,進行分析識別處理,獲取版面信息的過程。在眾多OCR應用當中,基于對識別準確率、場景覆蓋面、語種豐富度等因素的考量,會博通選擇了百度OCR。
在圖片文字識別上,百度OCR不僅能夠識別常規PDF文件,還能識別存在背景豐富、低亮度、低對比度、光照不均、透視變形、字號、字重、顏色不一等多重問題的圖片,精準度可以說是非常高的。同時,百度OCR也適用于卡證驗核、財會報銷、交通物流、教育培訓、內容審核等多種文字識別場景,滿足檔案管理的多種需求。此外,百度OCR還支持英、日、韓、法、德、意等20多種語種,對于多語言識別也不在話下。
在配置了OCR功能的會博通檔案系統當中,圖片資料一經上傳,系統便會分配一個后臺任務,在系統空閑的時候,對文件進行識別成為文本文件。 文本文件識別完成后,內容就會自動接入到會博通搜索平臺當中,與搜索內容進行匹配,便于用戶精準快速獲取包含圖片在內的信息。
會博通檔案管理系統,擁有非常強大的檔案搜索功能,提供了包括關鍵詞檢索、全文檢索、類自然語言檢索、二次搜索等多種檢索方式,并且搜索結果可依權限反饋。在這個基礎之上,在結合百度ocr功能,可以說是非常全面、安全、高效的一套檔案搜索體系了,完全滿足當下檔案文件搜索需要。
在會博通檔案管理軟件當中,OCR功能屬于選配組件。如果您的檔案當中存在大量的PDF、JPG等圖片資料,為方便后期檢索,我們建議您最好選配OCR功能;如果您對于檔案全文檢索需求不大,或檔案資料以電子化的文檔為主,那么也可以暫且不配置該功能;如果您的系統安裝沒有配置OCR功能,但隨著業務的發展,對于圖片搜索的需求增加,那么也可以隨時聯系我們進行系統升級。
推薦閱讀: