Следующие продукты были найдены в Интернете, но я ими не пользовался.
OCR онлайн
Терминал OCR
Терминал OCR - это онлайн-служба OCR, которая выполняет оптическое распознавание символов (OCR) на ваших отсканированных изображениях и файлах PDF и преобразует их в редактируемые и текстовые документы с возможностью поиска.
Бесплатный OCR
Free-OCR.com - это бесплатный инструмент для оптического распознавания символов. Вы можете использовать это для распознавания любого изображения, которое вы предоставляете.
Эта услуга бесплатна, регистрация не требуется. Нам также не нужен ваш адрес электронной почты.
Просто загрузите ваши файлы изображений. Free-OCR принимает либо JPG, GIF, TIFF BMP или PDF ( только первая страница ). Единственным ограничением является то, что изображения не должны быть больше 2 МБ, не шире или не превышать 5000 пикселей, и существует ограничение в 10 загрузок изображений в час.
Maestro Recognition Server является коммерческим, но имеет демо-версию онлайн-тестирования.
Бесплатно программное обеспечение
FreeOCR - только для изображений.
FreeOCR - это программа для сканирования и распознавания, включающая в себя движок Tesseract free ocr, также известный как графический интерфейс Tesseract. Он включает в себя установщик Windows и очень прост в использовании и поддерживает многостраничные TIFF, факсимильные документы, а также большинство типов изображений, включая сжатые TIFF, которые механизм Tesseract сам по себе не может прочитать. У него теперь есть сканирование Twain.
pdfsandwich - pdf -> pdf конвертер.
pdfsandwich - это инструмент командной строки для отсканированных книг или журналов OCR. Он способен распознавать макет страницы даже для многоколоночного текста.
По сути, pdfsandwich - это скрипт-обертка, который вызывает следующие двоичные файлы: convert, cuneiform, gs и hocr2pdf. Известно, что он работает в системах Unix и был протестирован в Linux и MacOS X. Он поддерживает параллельную обработку в многопроцессорных системах.