При вставке копии PDF-файл искажен

106291
ngm

Я пытаюсь скопировать и вставить текст из файла PDF.

Однако всякий раз, когда я вставляю оригинальный текст, это огромный беспорядок искаженных символов. Текст выглядит следующим образом (это только один небольшой фрагмент):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03!  (4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$!  0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40!  /'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'!  1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40!  65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(!  &,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97!  )*+*+, C<88,?>8513AG<5A14,  

Я пробовал это и в Adobe, и в Foxit. Я сделал «Сохранить как текст» в Adobe Reader, и полученный текстовый файл - тот же искаженный текст.

Любые идеи, как я могу получить этот текст без искажений? (Кроме ручного набора текста ... есть много текста для извлечения.)

21
Аналогичный вопрос: http://superuser.com/questions/119393/search-pdfs-with-non-standard-character-encodings Hugh Allen 13 лет назад 0
Я также могу подтвердить эту проблему с OS X, по крайней мере на 10.8.2. Я потратил немного времени на изучение структуры файлов PDF, но, к сожалению, я не вижу способа исправить ущерб. «PreFlight» в Acrobat Pro сообщает о проблемах с файлом при проверке его на соответствие стандарту PDF / A, а в отчете Inventory отображаются сопоставляемые глифы с явно неправильными символами Юникода. Я поднял отчет об ошибке с Apple - ID 12655651. Я сообщу здесь, если / когда я получу какие-либо обновления. KenD 11 лет назад 0
Может быть полезно http://superuser.com/a/481510/153937 Ankit 11 лет назад 0
Попробуйте некоторые утилиты для чтения с экрана (которые работают с jpeg, сделайте экран печати, и все готово) или [здесь другой путь] (http://blog.tcg.com/tcg/2005/12/copying_text_fr.html). (Просто «угадай», не кусай меня за это. Я использовал первый способ тогда. Надеюсь, есть более удобные способы). Shiki 14 лет назад 0

11 ответов на вопрос

10
acatalept

Simplest way to get around this is to open the file in a recent version of Google Chrome with built-in PDF reading plugin. Then you can use Chrome's search feature to find text, and copy-paste works correctly.

I would like to vote up pipitas's comment on Shiki's answer, but I don't have the creds :( The problem may be custom font encoding, not encryption. In Acrobat, click File -> Properties, then click the Fonts tab to see encoding, and the Security tab to see whether it's encrypted.

Действительно, пользовательская кодировка шрифтов была виновником для меня. Тем не менее, Chrome не был решением. Я частично решил проблему с Ghostscript, воссоздающим PDF из PS (мне повезло иметь исходный код PS). Любые группы символов, к которым LaTeX применяет лигатуры (например, ff, c, fi и т. Д.), Не отображаются в скопированном тексте PDF, что требует некоторого редактирования при копировании / вставке. Fuhrmanator 9 лет назад 0
Та же проблема с хромом JinSnow 8 лет назад 1
4
Daniel

Я обнаружил эту проблему с PDF-файлами, которые я создал, и, по-моему, я нашел источник проблемы: с помощью Mac OS X Preview для уменьшения размера файла PDF.

Я создал несколько кварцевых фильтров, используя утилиту Colorsync для сжатия изображений в PDF-файлах, чтобы уменьшить общий размер PDF-файлов с изображениями. Такие, как описано здесь: http://www.macosxhints.com/article.php?story=20031106133852693

Я обнаружил, что могу легко копировать и вставлять текст из исходного (несжатого) файла PDF, но после запуска этого PDF-файла с помощью созданного мной фильтра «Уменьшить размер файла» полученный сжатый PDF-файл не копирует и вставляет отчетливо (выглядит как Строки вы отправили).

Однако, запустив тот же оригинальный PDF с помощью функции Adobe> Acrobat Pro «Документ»> «Уменьшить размер файла», полученный сжатый PDF-файл может успешно копировать и вставлять текст.

Таким образом, это не совсем полезно в вашем случае, если предположить, что ваш файл PDF был получен из другого места, и вы не сможете получить доступ к исходной версии, если она действительно была каким-то образом сжата. Но это может быть объяснением - что файл каким-то образом искажен в попытке уменьшить размер файла.

Это может быть полезно для создателей контента, сталкивающихся с аналогичными проблемами при копировании и вставке текста из PDF-файлов - будьте осторожны, используя фильтры OS X Quartz, чтобы уменьшить ваши PDF-файлы!

--edit-- Я также заметил эту проблему при объединении PDF с предварительным просмотром. Два исходных PDF-файла можно копировать и вставлять в порядке, но при перетаскивании страницы из одного файла в другой файл, а затем сохранении объединенного PDF-файла текст в объединенном документе не может быть скопирован / вставлен. Это два документа, которые были сгенерированы одновременно с помощью Filemaker Pro 11 на Mac - я не могу представить, что у них будут разные кодировки или что-то подобное.

3
Nick Olszanski

Есть еще один очень простой способ сделать обходной путь :)

Просто распечатайте документ, используя CutePdf, принтер Adobe 2 Pdf или любой другой подобный материал. Суть в том, что вам нужно распечатать в формате PDF.

Во многих случаях это легко устранит проблему.

2
user210118

SOLVED: (worked for me on Windows 8, Acrobat XI, Office 2010)

Option 1:

  1. Print from Acrobat using "Microsoft XPS Document Writer" Output is: "your file name.oxps"
  2. Open "...oxps" with XPS Viewer. *(see download link in comments below)
  3. Print to PDF (Acrobat PDF, or CutePDF), using the highest resolution (600 DPI).
  4. Open with Acrobat and use OCR (Searchable Image (Exact)) option.

BINGO!

Comments:

  • Using highest resolution and Searchable Image (exact) will save your text without loosing its clean appearance. Low resolution will make your text readable, but crappy looking.
  • Download Microsoft XPS (files): http://www.microsoft.com/en-us/download/details.aspx?id=11816
  • If you don't know what OCR is, or where to find Searchable Image (exact), or How to print using "Microsoft XPS Document Writer", PLEASE, Google it on your own, for your own best experiences.

*Download only if you do not have XPS installed.

Option 2:

Do similar, but save as image (png, tiff, ...), then you will have to combine all pages back in one "PDF" file.

Шаги 1, 2 и 3 кажутся долгими, когда можно просто перейти к шагу 3 Печать в PDF. (Например, изнутри вашего PDF-ридера). Нет необходимости объезжать через XPS. Hennes 11 лет назад 1
@Hennes Выполнение шага 4 приводит к ошибке `Acrobat не может выполнить OCR на этой странице, потому что: эта страница содержит визуализируемый текст` Fuhrmanator 9 лет назад 0
«визуализируемый текст» звучит как нечто, что еще нужно нарисовать (сделать). Возможно, уже сделано и сохранено как OCR-способное растровое изображение, если вы используете XPS. Но это всего лишь предположение. Hennes 9 лет назад 0
1
Emil

Существует риск того, что информация не будет извлечена вообще. Документы PDF - это, по сути, один документ, перекрывающий другой, один простой текст, другой рисунок. Когда вы копируете и вставляете документ, вы помечаете текст, глядя на изображение, но то, что копируется в буфер обмена, - это соответствующий фрагмент текстовой части.

В зависимости от способа создания документа качество и доступность текстовой части могут сильно различаться. Если вы сохраните документ текстового процессора в формате PDF, используя Acrobat, Word, драйвер принтера PDF или любой другой метод, качество, как правило, будет превосходным, поскольку текстовый файл может быть создан из текста оригинала. Некоторые специальные символы могут искажаться, но обычный текст, как правило, хорошо.

Однако если документ создается из отсканированного изображения, текстовая часть, как правило, создается путем обработки изображения методом оптического распознавания символов, что может привести к довольно печальным результатам, особенно если оригинал для этой цели менее чем оптимален.

Плохая программа, используемая для создания PDF-файла, или неправильные настройки могут также привести к полному искажению текстовой части, так как, возможно, некоторые виды шифрования выполняются для файла после его создания.

Суть в том, что если текстовая часть документа действительно плохая, улучшить ее невозможно. Лучше всего было бы полностью удалить текстовую часть и заставить программу повторить процесс распознавания текста. Я думаю, что это может быть выполнимо из Acrobat, но я не совсем уверен.

1
Kurt Pfeifle

Одной из возможных причин этого может быть то, что для встраивания шрифта в PDF-файл использовалась пользовательская кодировка, которая неправильно применяется при копировании текста из PDF-файла.

Вы можете применять различные методы, чтобы уберечь себя от ручного ввода всего содержимого.

  1. Вы пытались извлечь текст с помощью одного из инструментов pdftotext.exe, который можно загрузить через Интернет? (Я бы порекомендовал тот, который включен в ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip ).
  2. В последней версии Acrobat Reader есть опция «Сохранить как текст ...» . Это не использует «copy'n'paste» (который дал вам искаженный текст), но, вероятно, использует те же программные процедуры, которые использовались для рендеринга текста на экране, и может для этого привести к более пригодным для использования результатам.
  3. Если '2.' не работает, и если у вас есть доступ к Acrobat Professional: попробуйте повторно отфильтровать PDF-файл, используя один из профилей Distiller для встраивания шрифтов.
  4. Если «3» не работает, несмотря на то, что у вас есть доступ к Acrobat Professional: попробуйте повторно извлечь PDF, но на этот раз вы должны использовать опцию «печатать как изображение» (доступно через кнопку «Дополнительно» в левом нижнем углу основного шрифта диалог). Убедитесь, что вы используете 600 точек на дюйм (хотя это может привести к огромному файлу). Полученный PDF вы затем снова открываете в Acrobat Pro. Теперь примените алгоритм Acrobat «OCR» к файлу, который приведет к встроенному тексту (не используется для отображения на экране в Reader, но используется для поиска и выделения строк). Теперь вы можете повторить попытку извлечения текста из этого PDF-файла, используя любой из описанных выше методов.
Для меня, используя * Acrobat Pro XI * для перепечатки в PDF - но с *** отмечен флажком «Print as Image» *** (при 600 dpi) в ** Advanced ... ** кнопка / поддиалог от диалог ** Print ... ** - был трюк. Затем вы можете * наконец-то правильно распознать результат *. Ни одно из других решений, упомянутых на этой странице, не сработало. Примечание: для большого документа это может занять некоторое время, а результат PDF может быть довольно большим. Glenn Slayden 6 лет назад 0
@GlennSlayden: Рад, что мой совет сработал для тебя ... Чего не хватало в нем, если ты считал, что он по-прежнему не заслуживает повышения? Kurt Pfeifle 6 лет назад 0
Я сделал голосование Это все еще показывает для меня как «1». Моя единственная жалоба заключалась в том, что ваш ответ был внизу, и мне потребовалось некоторое время, чтобы найти его (не ваша вина ...) Glenn Slayden 6 лет назад 0
Хорошо, @GlennSlayden, тогда это голосование должно быть давно (задолго до вашего комментария выше). Kurt Pfeifle 6 лет назад 0
Нет, я проголосовал "12 часов назад", в то же время я написал комментарий ... Я все еще вижу синюю стрелку, которая (я считаю) означает, что мой голос - это (тот) голос, который в настоящее время зарегистрирован. И я помню, что это был «0», прежде чем я проголосовал прошлой ночью. Glenn Slayden 6 лет назад 0
Извините, @GlennSlayden. С моей стороны не похоже, что этот ответ получил какие-либо отклики за последние 3 месяца ... Да, ваша интерпретация синей стрелки верна. Kurt Pfeifle 6 лет назад 0
1
Reuti

Один из моих пользователей только что сообщил о той же проблеме (PDF был создан с помощью Distiller для Windows), что скопированный текст - только искаженный текст, и он не мог искать внутри документа. Я попробовал на своем Mac и не нашел никаких проблем. Оказалось, что я использовал приложение Apple Preview, а он использовал Adobe Reader на своем компьютере с Windows. Затем я попробовал Adobe Reader на моем Mac, но столкнулся с тем же эффектом. Для меня это выглядит так:

  • Adobe Reader выполняет копирование и поиск в сохраненном тексте.

  • Предварительный просмотр Apple будет копировать и искать после применения вектора кодировки.

Я не могу сказать это точно, но это объяснило бы мое наблюдение. И это действительно позволило бы выполнять все виды кодирования при сохранении комбинированных / уменьшенных файлов, как описано в другом посте здесь: с помощью Preview вы все равно можете снова получить текст.

Сначала я подумал, что было бы более логично кодировать подмножество встроенного шрифта как непрерывные записи, вместо того, чтобы оставлять дыры внутри и использовать исходное расположение символов. Но затем я понял, что, используя вектор кодирования для подмножества шрифта с исходными записями, часто используемые символы могут иметь меньше битов, равных 1, в своем байте и могут быть сжаты лучше (это может снизить энтропию общий текст таким образом).

1
Ankit

Uploading it to Google docs and Using the option View > Plain HTML, gives text copyable text correct to around 80% with some little bit of spaces missing.

This thread with accepted answer to same issue explains this with a working example.

1
Gavin Miller

Solution that worked for me:

  • Upload the document to Google Drive/Docs
  • Google will import it (as of 2013) as a PDF
  • Open the PDF view and choose File > Open With > Google Docs
  • It will take about a minute to export the document

The results weren't perfect, but got me 80% of the way there and provide me with enough text that I didn't have to rewrite everything!

1
Jhonrie

Я не пробовал использовать Google Docs, так как он все еще не поддерживается в моем офисе. Однако, распечатав файл в «ScanSoft PDF Create!» из «Acrobat 9» (печатает весь файл в изображение) и открытия распечатанного файла в «Nuance PDF Converter» (он подсказал мне, если я хочу сделать файл изображения доступным для поиска и редактирования, что я выбрал), я смог есть документ Word, который я могу легко скопировать и вставить. Это не идеально, хотя с точностью около 80-90%. Но, эй, у вас все еще есть оригинальный файл PDF для сравнения и смещения тех частей, которые просто невозможно исправить. Экономит время от ввода всей вещи. Мой 2с.

Похожие вопросы