Извлечь выделенный отсканированный текст / изображения из PDF

354
user921416

Мне нужен какой-то инструмент или обходной путь для извлечения выделенных областей из PDF. Я работаю с отсканированным PDF, поэтому распознавание текста не требуется, и мне также нужно извлечь выделенные изображения.

Я пробовал Zotelo, Mendeley, и выбирал вывод на печать в диалоговом окне printpdf (ctrl + p), но они работают только с выделенным текстом.

0

1 ответ на вопрос

0
mapto

Поскольку вы работаете с отсканированным файлом PDF, сам файл PDF содержит сжатые данные изображения. Он не содержит текст как таковой. Таким образом, ваше решение должно:

  1. Извлеките изображение из PDF в формат изображения
  2. Возможно, проанализировать текст с помощью специального инструмента OCR

Из вашего вопроса не ясно, какие ОС и инструменты у вас есть, а также как вы умеете писать. Из-за этого, вот общий ответ сейчас, и этот процесс является довольно автоматизируемым (с учетом изменений в PDF-файлах), если вам нужно повторить его много раз.

Если вы делаете это вручную, первый шаг может быть таким же простым, как печать экрана и возможное кадрирование. Альтернативой является использование инструмента для преобразования документа PDF в файл изображения . Тогда вы можете обрезать в соответствии с вашими потребностями, например, с GIMP .

На втором этапе вы можете использовать любое программное обеспечение OCR, например, Tesseract .

Похожие вопросы