PDF OCR X，基于Tesseract OCR的免费OCR识别

作者：

在

OCR识别的难度很大，尤其是扫描版文件。标准数字版的PDF文件，直接使用SumatraPDF、Foxit和Adobe等PDF软件就可以正常复制文本。完全免费、提供PDF和图片识别、支持多国语言的Tesseract OCR识别效果不错，PDF OCR X基于Tesseract OCR，有Mac和Windows版本。

PDF OCR X

http://solutions.weblite.ca/pdfocrx/
PDF OCR X基于Tesseract OCR引擎，支持直接拖拽图片和PDF文件识别为TXT文档。

PDF OCR X

Windows平台下的Tesseract OCR GUI有gImageReader、SunnyPage OCR、VietOCR、Lector和Lime OCR等。但这些软件要么长期没更新，要么有兼容性问题。
PDF OCR X Community Edition 2.0基于Java，所以兼容性更好（支持Windows 8.1）。可以联网下载或自己按需下载
Tesseract OCR语言数据文件到（程序自带英文数据）：

PDF OCR X Community Edition\app\tessdata

PDF OCR X Community Edition 2.0官网提供的是安装版，但其程序文件夹可以直接便携化使用。

Tesseract OCR

https://code.google.com/p/tesseract-ocr/
Tesseract OCR引擎是一个开源的OCR识别项目，以前是 HP labs的，现在由Google资助。

An OCR Engine that was developed at HP Labs between 1985 and 1995… and now at Google.

官网有简体中文、繁体中文等多国语言数据文件可下载。
Tesseract OCR只是一个引擎，没有GUI。
配合语言数据文件可以识别多国语言，但识别准确率肯定比不上ABBYY FineReader，尤其是有特殊标点、符号和换行的文件。最麻烦的是如果某一行文字有特殊标点（比如@）不能识别，则整行文字都可能不能识别。

PDF

2 条对“PDF OCR X，基于Tesseract OCR的免费OCR识别”的回复

2013-11-27

Louis Han

估计对中文的识别肯定好不了
1. 2013-11-27
  
  沙丘
  
  只要没有特殊字符和标点，识别率不比汉王OCR差

PDF OCR X，基于Tesseract OCR的免费OCR识别

PDF OCR X

Tesseract OCR

评论

2 条对“PDF OCR X，基于Tesseract OCR的免费OCR识别”的回复

更多文章

ClamWin 便携化方法

Android x86 可用ARM编译器

修复Firefox 35上Tab Utilities Lite”最近关闭的标签页”子菜单

IE11 恢复默认 Internet 临时文件夹