Как удалить OCR из PDF?

15895
Sanoo

Я давно ищу в Google, но не могу найти ответ на свой вопрос.

У меня есть нежелательные слои распознавания текста в документе, который я недавно сканировал с помощью Adobe Acrobat. Он не был правильно распознан, и я хочу отредактировать некоторую информацию, но OCR создает необходимую информацию для удаления. Я конвертировал файлы в формат TIF, но заметил (очень) значительную потерю качества. Я слышал, что печать в другой PDF-файл либо сохраняет текст, либо снижает качество изображения.

Я ценю любую помощь в решении этой проблемы как можно скорее.

Благодарю вас.

10

5 ответов на вопрос

3
user1125483

В Acrobat Pro DC соответствующей командой является «Удалить скрытую информацию», доступную через инструменты «Защита» и «Редактирование».

При запуске команды она просто ищет скрытую информацию, но не меняет документ. Затем вы должны указать Acrobat, какую информацию удалить. В этом случае выберите «Скрытый текст» на панели результатов, затем нажмите кнопку «Удалить» и сохраните измененный документ.

Я использовал «удалить скрытую информацию», но для меня по какой-то причине просто удаляются части изображения на определенных страницах. Спасибо за ваш ответ, однако. Sanoo 7 лет назад 0
Это не универсально верно. Каким-то образом (возможно, ошибки в macOS PDFKit) мой текст ABBYY FineReader-OCR был поврежден, и проверка «Скрытый текст» в разделе «Редактирование → Удалить скрытый» удалила текст без каких-либо проблем; После этого я смог успешно использовать функции «Улучшенное сканирование» → «Распознать текст» для выполнения распознавания текста в самом Acrobat. Nicholas Riley 6 лет назад 0
Проблема для меня заключается в том, что после удаления скрытого текста я все еще не могу запустить OCR с «ClearScan» (т.е. «Редактируемый текст и изображения»). Это странно, потому что текстовый слой, по-видимому, исчез, но при запуске OCR выдается ошибка «Acrobat не может выполнить распознавание, потому что: страница содержит визуализируемый текст». user1125483 5 лет назад 0
2
jazzzz

В Acrobat Pro: используйте «удалить скрытую информацию» (в разделе «защита»). Выбрать все, выполнить, OCR пропал

2
Dave

В Acrobat X в разделе Защита есть кнопка Sanitize Document, которая удаляет ВСЕ, но то, что можно увидеть (включая текстовый слой OCR), преобразовывая документ в сплющенную битовую карту.

1
Sanoo

После долгих экспериментов я обнаружил, что при печати в Adobe PDF из Adobe Acrobat документ печатается без распознавания текста и без потери качества (незаметное на первый взгляд разрешение теряется).

Однако многие сайты утверждают, что это не работает. Я также пробовал другие принтеры, такие как Foxit Reader и OneNote, но качество было снижено. JPEG тоже был таким же.

Пожалуйста, имейте в виду, что ваш пробег может отличаться.

Примечание: я оставляю эту ветку помеченной как неотвеченную в надежде найти лучший ответ, чем мой.

1
Fran

(one year ago...)

If, as you say, the documents are scanned and not printed to PDF from Word for example, you can easily remove with your Adobe:

Select Document, Examine Document and now you can remove the hidden text (OCR).

Спасибо за ваш ответ. Я проверю это, как только смогу, и дам вам знать. Спасибо за ответ! Sanoo 8 лет назад 0
Я думал, что уже прокомментировал это, но проблема в том, что у меня есть Acrobat DC Pro, и эти меню были удалены. В любом случае, спасибо за ваш ответ. Sanoo 7 лет назад 0

Похожие вопросы