Если файл PDF содержит только отсканированное изображение, это просто изображение JPG внутри контейнера PDF?

557
RockPaperLizard

Многие сканеры могут сканировать страницу в файл PDF.

Когда это сделано, действительно ли файл PDF является просто контейнером, который содержит одно изображение? Это изображение, как правило, в формате JPG, PDF или проприетарного формата?

3
Я действительно надеюсь, что ваш сканер не производит JPEG, потому что это худший формат, который вы можете использовать для сканирования, из-за артефактов, которые он создает. Но это часть программного обеспечения сканера. … Если я правильно помню, это изображение PDF, использующее указанное сжатие. Когда вы попытаетесь интерпретировать PDF, вы получите необходимую информацию, а также метаданные. Max Wyss 8 лет назад 0
@MaxWyss - Хотя JPG создает артефакты, JPG на самом деле часто является выгодным компромиссом и может создавать вполне пригодные для использования документы меньшего размера, чем GIF / PNG, при этом передавая контент. Тем не менее, я бы не стал использовать ее для электронных таблиц с очень маленькими символами шрифта, так как это может вызвать проблемы - http://www.dkriesel.com/en/blog/2013/0802_xerox-workcentres_are_switching_written_numbers_when_scanning davidgo 8 лет назад 0

1 ответ на вопрос

3
davidgo

Согласно этой ссылке, нет - PDF разрывает изображение и воссоздает его - иногда используя кодировку JPEG или JPEG2000.

Файл PDF обычно хранит изображение как отдельный объект (объект XObject), который содержит необработанные двоичные данные для изображения.

Важно понимать, что это обычно не изображения в смысле изображений TIF или Jpg или Png - это двоичные данные для пикселей, цветовое пространство, используемое для изображения, информация об изображении. Изображение разрывается при создании PDF, и различные инструменты создания PDF могут сохранять одно и то же изображение по-разному.

Иногда необработанные данные изображения корректируются до необходимого размера, необходимого для страницы, а иногда - нет, в этом случае они увеличиваются или уменьшаются при рисовании - разные инструменты создания PDF создают файлы PDF по-разному.

Фактические данные пикселей могут быть сжаты, и один из форматов сжатия (DCTDecode) используется так же, как в JPEG (JPX такой же, как Jpeg2000). Если вы сохраните эти данные, их можно открыть как файл JPEG, но, возможно, потребуется изменить их, чтобы включить данные цветового пространства.

Это изображение затем рисуется в потоке содержимого PDF ... Некоторые вещи, которые выглядят как изображение для глаза, могут также состоять из нескольких изображений или даже не изображений вообще!

Все это означает, что если вы хотите извлечь изображения из PDF, вам нужно собрать изображение из всех необработанных данных - оно не сохраняется как полный файл изображения, который вы можете просто извлечь.

Сканеры, скорее всего, не будут иметь JPEG2000 или чего-либо подобного встроенного. Так что относительно безопасно предположить, что это обычный JPEG. Это также то, что делает мой МФУ Ricoh. Daniel B 8 лет назад 0
Какой инструмент создает PDF-файлы со сжатием изображений jpeg2000? erik 8 лет назад 0

Похожие вопросы