Как сделать OCR на PDF-документе?

5115
Shaul Behr

Возможный дубликат:
Как извлечь текст с помощью OCR из PDF в Linux?

У меня есть несколько документов на английском и иврите, которые я отсканировал и преобразовал в формат PDF.

Есть ли какая-нибудь бесплатная или дешевая утилита, которая может обрабатывать отсканированный PDF и выполнять OCR, по крайней мере, на английском языке, предпочтительно также на иврите?

Спасибо!

5
Пара похожих вопросов. http://superuser.com/questions/28426/how-to-extract-text-with-ocr-from-a-pdf-on-linux/33203#33203 http://superuser.com/questions/64124/extracting -text-from-a-pdf-отсканированная книга http://superuser.com/questions/97470/scan-a4-doc-pdf-ocr-translate-to-english heavyd 14 лет назад 0
Автор этого вопроса не уточнил, что он работает под управлением Linux. Так называемый возможный дублирующий вопрос слишком локализован и может вообще не относиться к автору этого вопроса. eleven81 14 лет назад 6
@ eleven81 - Правильно, я спрашивал о Windows. Shaul Behr 14 лет назад 3
Мало того, что это не дубликат - это все еще без ответа. Все 3 ответа приводят только к текстовым выдержкам, а не к PDF-тексту с возможностью выбора. cregox 11 лет назад 0

3 ответа на вопрос

1
eleven81

Я нашел интересную идею, которая позволяет Google выполнять всю работу по распознаванию PDF-файлов для вас.

Вместо того, что находится по этой ссылке, теперь проще просто использовать http://docs.google.com/viewer. ShreevatsaR 14 лет назад 0
1
eleven81

Я нашел список бесплатных программ для распознавания текста для Windows.

  1. FreeOCR
  2. Тессеракт
  3. WeOcr Tesseract Веб-интерфейс
  4. GOCR
  5. Windows GUI для GOCR
  6. OCR Desktop
  7. Простое распознавание текста
  8. TopOCR

Однако эти программы нуждаются в вводе изображения, а не в вводе PDF. Для этого попробуйте конвертер PDF в JPG .

0
Dennis

Лично я бы использовал Ghostview для преобразования их в изображение, а затем Tesseract для преобразования их в текст. Это абсолютно бесплатное кроссплатформенное решение с открытым исходным кодом, с которым я добился очень хороших результатов при попытке конвертировать простой текст. Я не использую его для сложных документов с таблицами и тому подобным, но для простого текста вы не можете превзойти цену.

Похожие вопросы