Извлечь выделенный отсканированный текст / изображения из PDF

Question

Извлечь выделенный отсканированный текст / изображения из PDF

354

user921416 2018-07-09 в 03:24

Мне нужен какой-то инструмент или обходной путь для извлечения выделенных областей из PDF. Я работаю с отсканированным PDF, поэтому распознавание текста не требуется, и мне также нужно извлечь выделенные изображения.

Я пробовал Zotelo, Mendeley, и выбирал вывод на печать в диалоговом окне printpdf (ctrl + p), но они работают только с выделенным текстом.

0

1 ответ на вопрос

0

Accepted Answer · 2018-07-09 07:33:25

Поскольку вы работаете с отсканированным файлом PDF, сам файл PDF содержит сжатые данные изображения. Он не содержит текст как таковой. Таким образом, ваше решение должно:

Извлеките изображение из PDF в формат изображения
Возможно, проанализировать текст с помощью специального инструмента OCR

Из вашего вопроса не ясно, какие ОС и инструменты у вас есть, а также как вы умеете писать. Из-за этого, вот общий ответ сейчас, и этот процесс является довольно автоматизируемым (с учетом изменений в PDF-файлах), если вам нужно повторить его много раз.

Если вы делаете это вручную, первый шаг может быть таким же простым, как печать экрана и возможное кадрирование. Альтернативой является использование инструмента для преобразования документа PDF в файл изображения . Тогда вы можете обрезать в соответствии с вашими потребностями, например, с GIMP .

На втором этапе вы можете использовать любое программное обеспечение OCR, например, Tesseract .

Извлечь выделенный отсканированный текст / изображения из PDF

1 ответ на вопрос

Похожие вопросы