Как я могу преобразовать отсканированные изображения в формате PDF в PDF-файл с возможностью поиска?

36812
slhck

У меня есть PDF отсканированной книги.

Я ищу бесплатное программное обеспечение, которое будет выполнять OCR, а затем предоставить возможность сохранить его в виде PDF или документа снова.

Есть один?

19
Вы имеете в виду, что вы хотите конвертировать изображения в формате PDF в текст? DaveParillo 14 лет назад 0
да, но я не хочу текстовый файл в качестве вывода. Я хочу увидеть точно такой же PDF, но с возможностью нажать Ctrl + F и отметить слова и т.д .. 14 лет назад 0
вам будет очень трудно конвертировать этот PDF без потери форматирования текста и стиля. Мне еще предстоит найти программное обеспечение для распознавания текста, способное правильно сохранить документ из отсканированных изображений. подготовиться к ослиной работе (например, корректура и т. д.) :) 14 лет назад 0

8 ответов на вопрос

5
pelms

Вы можете загрузить 30-дневную пробную версию Adobe Acrobat Pro и использовать функцию «Распознавание текста OCR» («Документ> Распознавание текста OCR> Распознать текст с помощью OCR ...»). В диалоговом окне настроек выберите «Доступное для поиска изображение» в качестве стиля вывода. Это сохранит изображение страницы, но вставит текст OCR, так что документ будет доступен для поиска и позволит выбирать, копировать и вставлять текст.

После запуска OCR вам необходимо подтвердить или исправить слова, в которых OCR не уверен насчет использования функций «Найти подозреваемых OCR».

Хотя Adobe не является бесплатной, на сегодняшний день это самое эффективное решение для распознавания текста. James Healy 12 лет назад 0
4
harrymc

Следующие продукты были найдены в Интернете, но я ими не пользовался.

OCR онлайн

Терминал OCR

Терминал OCR - это онлайн-служба OCR, которая выполняет оптическое распознавание символов (OCR) на ваших отсканированных изображениях и файлах PDF и преобразует их в редактируемые и текстовые документы с возможностью поиска.

Бесплатный OCR

Free-OCR.com - это бесплатный инструмент для оптического распознавания символов. Вы можете использовать это для распознавания любого изображения, которое вы предоставляете.
Эта услуга бесплатна, регистрация не требуется. Нам также не нужен ваш адрес электронной почты.
Просто загрузите ваши файлы изображений. Free-OCR принимает либо JPG, GIF, TIFF BMP или PDF ( только первая страница ). Единственным ограничением является то, что изображения не должны быть больше 2 МБ, не шире или не превышать 5000 пикселей, и существует ограничение в 10 загрузок изображений в час.

Maestro Recognition Server является коммерческим, но имеет демо-версию онлайн-тестирования.

Бесплатно программное обеспечение

FreeOCR - только для изображений.

FreeOCR - это программа для сканирования и распознавания, включающая в себя движок Tesseract free ocr, также известный как графический интерфейс Tesseract. Он включает в себя установщик Windows и очень прост в использовании и поддерживает многостраничные TIFF, факсимильные документы, а также большинство типов изображений, включая сжатые TIFF, которые механизм Tesseract сам по себе не может прочитать. У него теперь есть сканирование Twain.

pdfsandwich - pdf -> pdf конвертер.

pdfsandwich - это инструмент командной строки для отсканированных книг или журналов OCR. Он способен распознавать макет страницы даже для многоколоночного текста.

По сути, pdfsandwich - это скрипт-обертка, который вызывает следующие двоичные файлы: convert, cuneiform, gs и hocr2pdf. Известно, что он работает в системах Unix и был протестирован в Linux и MacOS X. Он поддерживает параллельную обработку в многопроцессорных системах.

Я только что использовал pdfsandwich. Это работает и это бесплатно! :) Это, безусловно, поможет в моей диссертации, спасибо! Eddy 12 лет назад 0
Похоже, pdfsandwich переехал? http://www.tobias-elze.de/pdfsandwich/ pioto 8 лет назад 0
@pioto: это не я добавил pdfsandwich выше, но я исправил ссылку, как вы предложили. harrymc 8 лет назад 0
4
Richard Lucas

Если у вас есть учетная запись Google, то в Документах Google теперь есть функция для загрузки файла PDF и выполнения распознавания.

Я попробовал это сам, и это делает честный удар в по общему признанию хорошо отформатированном PDF.

Форматирование в значительной степени разрушено, но текст, кажется, выживает.

2
Jukka Matilainen

Cuneiform + hocr2pdf + Ghostscript : DIY-решение с открытым исходным кодом.

Я опубликовал ответ, в котором изложено решение, включающее в себя версию системы распознавания Cuneiform с открытым исходным кодом и hocr2pdf вместе с Ghostscript для объединения страниц PDF.

Это было специально для Linux, но вы также можете получить Cuneiform и Ghostscript для Windows. Я не уверен насчет hocr2pdf или его эквивалента.

1
jtbandes

Вот очень странный метод, который включает размещение индекса Google и OCR для вас на веб-сайте, а затем получение его.

yeah, I saw that too... strange Indeed :) I might end up doing it... 14 лет назад 0
0
DaveParillo

Установите Imagemagick . Откройте окно cmd или терминал:

convert myfile.pdf myfile-%02d.jpg 

Вывод будет 1 JPG-файл для каждой страницы в вашем PDF, myfile-00.jpg, myfile-01.jpg и т. Д.

Передайте каждое изображение через программу ocr. У меня нет большого опыта с этим, но, кажется, есть много вариантов.

Конвертировать каждую страницу текста обратно в PDF. Вы можете сделать это снова с imagemagick, но есть и другие способы:

convert page-%02d.txt -density 300x300 -compress jpeg final.pdf 
0
Xavierjazz

Ваш запрос кажется сложным решением проблемы, хотя, возможно, я неправильно понимаю проблему. Во всяком случае:

Почему бы не получить PDF Writer, который позволит вам вводить данные непосредственно на странице PDF?

0
rlangner

Попробуйте PDFCubed.com Ничего не установить, все сделано онлайн. Вы можете отправить свои документы для обработки через Интернет, электронную почту или Dropbox. Отсканированные PDF-файлы и TIF-файлы преобразуются в текстовые PDF-файлы с возможностью поиска и затем могут быть получены через Интернет, электронную почту или Dropbox.

Похожие вопросы