Из Википедии :
Первоначально оно было разработано как проприетарное программное обеспечение для Hewlett-Packard в период с 1985 по 1995 год. Спустя десять лет, не занимаясь разработкой, Hewlett Packard и UNLV выпустили его как открытый исходный код в 2005 году. Tesseract в настоящее время разрабатывается Google и выпускается по лицензии Apache. Версия 2.0.
Тессеракт считается одним из самых точных доступных в настоящее время механизмов OCR для свободного программного обеспечения.
Недостатком является то, что он обрабатывает только TIFF файл, может быть, вы можете использовать другой конвертер для преобразования PDF в TIFF и позволить Tesseract делать свою работу.