Я нашел интересную идею, которая позволяет Google выполнять всю работу по распознаванию PDF-файлов для вас.
Как сделать OCR на PDF-документе?
Возможный дубликат:
Как извлечь текст с помощью OCR из PDF в Linux?
У меня есть несколько документов на английском и иврите, которые я отсканировал и преобразовал в формат PDF.
Есть ли какая-нибудь бесплатная или дешевая утилита, которая может обрабатывать отсканированный PDF и выполнять OCR, по крайней мере, на английском языке, предпочтительно также на иврите?
Спасибо!
3 ответа на вопрос
Я нашел список бесплатных программ для распознавания текста для Windows.
- FreeOCR
- Тессеракт
- WeOcr Tesseract Веб-интерфейс
- GOCR
- Windows GUI для GOCR
- OCR Desktop
- Простое распознавание текста
- TopOCR
Однако эти программы нуждаются в вводе изображения, а не в вводе PDF. Для этого попробуйте конвертер PDF в JPG .
Лично я бы использовал Ghostview для преобразования их в изображение, а затем Tesseract для преобразования их в текст. Это абсолютно бесплатное кроссплатформенное решение с открытым исходным кодом, с которым я добился очень хороших результатов при попытке конвертировать простой текст. Я не использую его для сложных документов с таблицами и тому подобным, но для простого текста вы не можете превзойти цену.
Похожие вопросы
-
14
PDF Viewer в Windows
-
8
Firefox PDF плагин для просмотра PDF в браузере на Windows
-
17
Как распечатать документы в pdf
-
-
2
Firefox печать в PDF-файл
-
4
PDF Reader для iPhone
-
6
Adobe Reader: запомните пароль для файла PDF
-
4
Можно ли добавить свои собственные закладки / вкладки в файл PDF?
-
5
Какие альтернативы Adobe Acrobat имеют функции подписи PDF
-
3
Какое программное обеспечение может преобразовать почерк в текст?
-
1
Составить оглавление для многих .odt-файлов