Можно ли «откатиться» в PDF без OCR?

505
Knob1

Я использую Automator в сочетании с Abbys Finereader для просмотра папки для новых отсканированных документов PDF. Finereader распознает документ и экспортирует его в новый PDF-файл в той же папке. Уже месяц я пользуюсь настройкой экспорта «text over page image». Руководства пользователя поясняют этот параметр:

Эта опция сохраняет фон и изображения исходного документа и помещает распознанный текст поверх них. Обычно для файла PDF, сохраненного с использованием этого параметра, требуется больше места на диске, чем для файла, сохраненного с включенной опцией «Только текст и изображения». Полученный PDF-документ полностью доступен для поиска. В некоторых случаях внешний вид получившегося документа может немного отличаться от оригинала.

Проблема в том, что в некоторых PDF-файлах, которые были отсканированы и «распознаны», много неправильных символов, но я только что узнал об этой ошибке.

Можно ли каким-либо образом «откатиться» на версию без OCR? Я пытался экспортировать PDF как файл TIFF, но в нем есть и неправильные символы ...

Есть идеи?

0
Единственный способ, которым я знаю, - восстановить исходный документ. Похоже, у вас нет оригинального документа. Ramhound 7 лет назад 0
У меня нет оригинала документа Knob1 7 лет назад 0

1 ответ на вопрос

0
user291737

Поскольку вы написали, что выбрали «текст поверх изображения страницы», у вас все равно должны быть оригинальные отсканированные изображения в ваших файлах PDF. Чтобы вернуть его: Если у вас есть Adobe Acrobat, есть опция «Сохранить как»> «Изображение»> «JPG», «TIFF» и т. Д. В противном случае используйте бесплатный редактор PDF, например PDF-XChange Viewer, и в меню «Файл» выберите «Экспорт»> «Экспорт в изображение». и выберите формат изображения, например, TIFF. Таким образом, я могу вернуть свои документы OCRed PDF (текст + изображение) обратно к первоначально отсканированным изображениям.

Вы написали, что пытались экспортировать их обратно в изображения (в Finereader?), И полученные изображения все еще содержали «неправильные символы». Похоже, вы выбрали не «текст поверх изображения страницы», а опцию, которая не сохраняет отсканированное изображение, а восстанавливает его макет с помощью текста OCRed (Adobe Acrobat называет это ClearScan). Эта функция восстанавливает компоновку сканирования как можно ближе к тексту OCRed в наиболее подходящем фонде и не сохраняет отсканированное изображение в PDF.

Похожие вопросы