Общие сведения о параметрах распознавания текста в Adobe Acrobat: «Изображение с возможностью поиска», «Изображение с возможностью поиска (точное)» и «Редактируемый текст и изображения»

3046
Kenny LJ

В Adobe Acrobat (я использую Pro DC, если это имеет значение) есть три варианта OCR:

  1. "Поиск изображений".
  2. "Доступное для поиска изображение (точное)".
  3. «Редактируемый текст и изображения».

enter image description here

Каковы различия между этими тремя вариантами?

В частности, что определяет размер выходного файла? Прямо сейчас я использовал оба варианта: первый и третий, и кажется, что иногда один больше, а другой больше (и различия могут быть существенными).

Каковы (если таковые имеются) компромиссы между качеством, размером файла и скоростью обработки распознавания?

2
Тема, которая вас интересует, находится в конце руководства под заголовком [Распознать текст в отсканированных документах] (https://helpx.adobe.com/acrobat/using/scan-documents-pdf.html). Существует также этот форум [страница] (https://forums.adobe.com/thread/1133603) spike_66 6 лет назад 0

1 ответ на вопрос

1
harrymc

Справочная статья Adobe Сканирование бумажного документа в PDF, раздел «Распознать текст - диалоговое окно« Общие параметры »» определяет режимы сканирования следующим образом:

Поиск изображения

Гарантирует, что текст доступен для поиска и выбора. Этот параметр сохраняет исходное изображение, выравнивает его по мере необходимости и размещает над ним невидимый текстовый слой. Выбор для изображений с уменьшенной выборкой в ​​этом же диалоговом окне определяет, будет ли изображение уменьшено и в какой степени.

Изображение с возможностью поиска (Точное)

Гарантирует, что текст доступен для поиска и выбора. Этот параметр сохраняет исходное изображение и размещает над ним невидимый текстовый слой. Рекомендуется для случаев, требующих максимальной точности исходного изображения.

Редактируемый текст и изображения

Синтезирует новый пользовательский шрифт, который близко соответствует оригиналу и сохраняет фон страницы, используя копию с низким разрешением.

Downsample To

Уменьшает количество пикселей в цветных, полутоновых и монохромных изображениях после завершения распознавания. Выберите степень понижающей выборки для применения. Опции с более высокими номерами обеспечивают меньшую дискретизацию, создавая PDF-файлы с более высоким разрешением.

Я проанализирую влияние этих параметров на размер выходного файла.

Все параметры сохраняют изображение, которое, вероятно, является крупным объектом.

Searchable Image поворачивает изображение, которое может изменить его размер, увеличивая или уменьшая его, в зависимости от метода перекодировки изображения, используемого Adobe

Downsample To может уменьшить разрешение изображения и, следовательно, уменьшить его размер, но объем полученного (или потерянного) пространства зависит от метода повторной выборки, который используется Adobe.

Редактируемый текст и изображения синтезируют новый шрифт, который затем включается в PDF и добавляет несколько десятков килобайт к выходному размеру.

В общем, нет четкого метода для создания самого маленького PDF. Полученная (или потерянная) сумма зависит как от распознавания изображений, так и от того, насколько эффективно они могут быть повторно сжаты Adobe.

Если целью является экономия места, я бы предложил использовать редактируемый текст и изображения, но, как описано в этой статье Adobe Acrobat, укажите в настройках «Использовать доступный системный шрифт», чтобы избежать использования пользовательского шрифта. Вы также можете удалить изображения, если текста OCR достаточно.

Похожие вопросы