Существует риск того, что информация не будет извлечена вообще. Документы PDF - это, по сути, один документ, перекрывающий другой, один простой текст, другой рисунок. Когда вы копируете и вставляете документ, вы помечаете текст, глядя на изображение, но то, что копируется в буфер обмена, - это соответствующий фрагмент текстовой части.
В зависимости от способа создания документа качество и доступность текстовой части могут сильно различаться. Если вы сохраните документ текстового процессора в формате PDF, используя Acrobat, Word, драйвер принтера PDF или любой другой метод, качество, как правило, будет превосходным, поскольку текстовый файл может быть создан из текста оригинала. Некоторые специальные символы могут искажаться, но обычный текст, как правило, хорошо.
Однако если документ создается из отсканированного изображения, текстовая часть, как правило, создается путем обработки изображения методом оптического распознавания символов, что может привести к довольно печальным результатам, особенно если оригинал для этой цели менее чем оптимален.
Плохая программа, используемая для создания PDF-файла, или неправильные настройки могут также привести к полному искажению текстовой части, так как, возможно, некоторые виды шифрования выполняются для файла после его создания.
Суть в том, что если текстовая часть документа действительно плохая, улучшить ее невозможно. Лучше всего было бы полностью удалить текстовую часть и заставить программу повторить процесс распознавания текста. Я думаю, что это может быть выполнимо из Acrobat, но я не совсем уверен.