光學字符識別技術的優缺點?
OCR (Optical Character Recognition,光學字符識別)是指電子設備(例如掃描儀或數碼相機)檢查紙上打印的字符,通過掃描等光學輸入方式將各種票據、報刊、書籍、文稿及其它印刷品的文字轉化為圖像信息,再利用文字識別技術將圖像信息轉化為可以使用的計算機輸入技術。
可應用于銀行票據、大量文字資料、檔案卷宗、文案的錄入和處理領域。
適合于銀行、稅務等行業大量票據表格的自動掃描識別及長期存儲。
相對一般文本,通常以最終識別率、識別速度、版面理解正確率及版面還原滿意度4個方面作為OCR技術的評測依據;而相對于表格及票據, 通常以識別率或整張通過率及識別速度為測定OCR技術的實用標準。
OCR識別技術不僅具有可以自動判斷、拆分、 識別和還原各種通用型印刷體表格,在表格理解上做出了令人滿意的實用結果,能夠自動分析文稿的版面布局,自動分欄、并判斷出標題、橫欄、圖像、表格等相應屬性,并判定識別順序,能將識別結果還原成與掃描文稿的版面布局一致的新文本。
表格自動錄入技術,可自動識別特定表格的印刷或打印漢字、字母、數字,可識別手寫體漢字、手寫體字母、數字及多種手寫符號,并按表格格式輸出。
提高了表格錄入效率,可節省大量人力。
同時支持將表格識別直接還原成PTF、PDF、HTML等格式文檔;并可以對圖像嵌入橫排文本和豎排文本、表格文本進行自動排版面分析。
上一篇新笑傲江湖拜山順序
下一篇現在學計算機是不是沒用了