OCR识别的难度很大,尤其是扫描版文件。标准数字版的PDF文件,直接使用SumatraPDF、Foxit和Adobe等PDF软件就可以正常复制文本。完全免费、提供PDF和图片识别、支持多国语言的Tesseract OCR识别效果不错,PDF OCR X基于Tesseract OCR,有Mac和Windows版本。
PDF OCR X
http://solutions.weblite.ca/pdfocrx/
PDF OCR X基于Tesseract OCR引擎,支持直接拖拽图片和PDF文件识别为TXT文档。
Windows平台下的Tesseract OCR GUI有gImageReader、SunnyPage OCR、VietOCR、Lector和Lime OCR等。但这些软件要么长期没更新,要么有兼容性问题。
PDF OCR X Community Edition 2.0基于Java,所以兼容性更好(支持Windows 8.1)。可以联网下载或自己按需下载
Tesseract OCR语言数据文件到(程序自带英文数据):
PDF OCR X Community Edition\app\tessdata
PDF OCR X Community Edition 2.0官网提供的是安装版,但其程序文件夹可以直接便携化使用。
Tesseract OCR
https://code.google.com/p/tesseract-ocr/
Tesseract OCR引擎是一个开源的OCR识别项目,以前是 HP labs的,现在由Google资助。
An OCR Engine that was developed at HP Labs between 1985 and 1995… and now at Google.
官网有简体中文、繁体中文等多国语言数据文件可下载。
Tesseract OCR只是一个引擎,没有GUI。
配合语言数据文件可以识别多国语言,但识别准确率肯定比不上ABBYY FineReader,尤其是有特殊标点、符号和换行的文件。最麻烦的是如果某一行文字有特殊标点(比如@)不能识别,则整行文字都可能不能识别。