Как сделать OCR на PDF-документе?

Question

Как сделать OCR на PDF-документе?

5115

Shaul Behr 2010-02-16 в 16:40

Возможный дубликат:
Как извлечь текст с помощью OCR из PDF в Linux?

У меня есть несколько документов на английском и иврите, которые я отсканировал и преобразовал в формат PDF.

Есть ли какая-нибудь бесплатная или дешевая утилита, которая может обрабатывать отсканированный PDF и выполнять OCR, по крайней мере, на английском языке, предпочтительно также на иврите?

Спасибо!

5

Пара похожих вопросов. http://superuser.com/questions/28426/how-to-extract-text-with-ocr-from-a-pdf-on-linux/33203#33203 http://superuser.com/questions/64124/extracting -text-from-a-pdf-отсканированная книга http://superuser.com/questions/97470/scan-a4-doc-pdf-ocr-translate-to-english heavyd 14 лет назад 0

Автор этого вопроса не уточнил, что он работает под управлением Linux. Так называемый возможный дублирующий вопрос слишком локализован и может вообще не относиться к автору этого вопроса. eleven81 14 лет назад 6

@ eleven81 - Правильно, я спрашивал о Windows. Shaul Behr 14 лет назад 3

Мало того, что это не дубликат - это все еще без ответа. Все 3 ответа приводят только к текстовым выдержкам, а не к PDF-тексту с возможностью выбора. cregox 11 лет назад 0

3 ответа на вопрос

1

eleven81 2010-02-16 в 16:54

Я нашел список бесплатных программ для распознавания текста для Windows.

Однако эти программы нуждаются в вводе изображения, а не в вводе PDF. Для этого попробуйте конвертер PDF в JPG .

0

Dennis 2010-02-16 в 16:47

Лично я бы использовал Ghostview для преобразования их в изображение, а затем Tesseract для преобразования их в текст. Это абсолютно бесплатное кроссплатформенное решение с открытым исходным кодом, с которым я добился очень хороших результатов при попытке конвертировать простой текст. Я не использую его для сложных документов с таблицами и тому подобным, но для простого текста вы не можете превзойти цену.

Accepted Answer · 2010-02-16 16:48:00

eleven81 2010-02-16 в 16:48

Я нашел интересную идею, которая позволяет Google выполнять всю работу по распознаванию PDF-файлов для вас.

Вместо того, что находится по этой ссылке, теперь проще просто использовать http://docs.google.com/viewer. ShreevatsaR 14 лет назад 0

Как сделать OCR на PDF-документе?

3 ответа на вопрос

Похожие вопросы