Не удается скопировать текст из файла PDF

118536
Jonno_FTW

Я использую foxit PDF Reader для просмотра моего учебника. Я хотел бы скопировать текст из PDF-файла в текстовый документ, но он не позволит мне. Я могу выбрать текст хорошо, но опция для копирования текста недоступна. Я могу скопировать текст из других документов, но не некоторые. Есть ли способ обойти эту защиту в окнах?

36
Я вижу, мой ответ не работает для вас, поэтому вы отправили награду. Если вы разместите где-нибудь пример такого pdf, я посмотрю на него. harrymc 11 лет назад 0
@harrymc: В частности, я искал для копирования значений из таблицы 6.15 http://acousticslab.org/papers/VassilakisP2001Dis Диссертация.pdf endolith 11 лет назад 0
@endolith: Смотрите мой новый ответ. harrymc 11 лет назад 0

9 ответов на вопрос

28
harrymc

Возможно, PDF-файл заблокирован от копирования текста. Ниже приведены два способа разблокировки:

  1. Если PDF-файл не был заблокирован для печати, вы можете распечатать его на виртуальном PDF-принтере, чтобы создать разблокированный файл. Смотрите это:
    «Удалить пароль и разблокировать защищенный PDF, который разрешается печатать, не зная секрета» .
  2. Если функция печати была заблокирована, см. Следующее:
    «Снять ограничения и расшифровать защищенные паролем PDF-файлы с помощью PDF Unlocker» .
Вы можете увидеть, заблокирован ли PDF для копирования. В меню «Файл» выберите «Свойства» и на вкладке «Безопасность» укажите, разрешено ли копирование содержимого. Rob Sedgwick 8 лет назад 0
23
Khaleel
  1. Откройте PDF в Google Chrome (перетащите PDF-файл в Chrome).
  2. Распечатайте определенную страницу в формате PDF или просто откройте предварительный просмотр.
  3. Теперь вы можете скопировать текст из предварительного просмотра или вывода PDF. Но я не думаю, что вы могли бы скопировать таблицу напрямую.
https://docs.google.com/open?id=0B0U0hneaP_FcYWprOFpEbTVqdkk Посмотрите мой результат. Khaleel 11 лет назад 1
Это работает и для меня тоже. Это самый простой метод, который я вижу здесь. endolith 11 лет назад 3
Абсолютно блестящий. Кстати, вы можете перетащить файлы на панель вкладок Chrome, чтобы быстро их открыть. iono 11 лет назад 2
Ни один из этих методов не работал для меня в Chrome 53. Возможно, лазейка была закрыта? Simon East 7 лет назад 0
10
Michael Hampton

Мне удалось создать версию PDF-файла без DRM, используя Ghostscript (который доступен для Windows).

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sOutputFile=stripped.pdf VassilakisP2001Dissertation.pdf 

Полученный файл stripped.pdfможно загрузить в Adobe Reader, и Reader с радостью позволит вам скопировать любую его часть по вашему желанию. Это также сохраняет большую часть форматирования таблицы.

Это великолепно. Мой налоговый бухгалтер отказывается предоставить мне PDF-файлы без DRM и пароль для удаления DRM. Это решает мою проблему. Превосходная работа! kevinarpe 10 лет назад 0
Если в PDF есть пароль, обязательно включите ключ `-sPDFPassword` (` -sPDFPassword = пароль`). palswim 6 лет назад 0
2
Michael Hampton

Я смог успешно скопировать таблицу из вашего PDF-файла, используя Okular (для Linux; часть KDE). Чтобы сделать это, мне нужно было зайти в настройки Okular и снять галочку «Сдерживать ограничения DRM».

Я знаю, что это не очень вам помогает, так как вы работаете с Windows, но это возможно, если у вас есть машина с Linux под рукой или вы хотите ее установить.

К сожалению, это был простой текст без форматирования, но похоже, что воссоздать таблицу не составит большого труда. Вы можете увидеть результаты моего копирования и вставки приключений здесь .

Вот для чего предназначен VirtualBox. : D Я также могу копировать простой текст без форматирования, но, выбрав один столбец за раз, его довольно легко экспортировать. endolith 11 лет назад 0
Похоже, это лучше всего подходит для таблиц чисел, так как Okular позволяет делать прямоугольный выбор текста и извлекать один столбец по порядку. endolith 11 лет назад 0
Для отдельных столбцов, вероятно, так. Для всей таблицы см. [Мой другой ответ] (http://superuser.com/a/449293/144961). Michael Hampton 11 лет назад 0
Обратите внимание, что Okular * может * работать в Windows. На самом деле * много * программного обеспечения KDE может [работать на windows] (http://windows.kde.org/). Bakuriu 10 лет назад 0
1
David

Вы можете использовать GT Text - программу, которая переводит изображения (также снимки в формате pdf = изображение) в текст. Вы можете выбрать область и скопировать ее в буфер обмена. Это бесплатно.

Официальная домашняя страница http://gttext.googlecode.com

0
endolith

Если вы просто ищете короткие фрагменты, вы часто можете ввести несколько слов в Google внутри кавычек и найти точную цитату, уже отсканированную в другом формате или набранную кем-то другим.

Другой вариант - «Документ из фотографии» в приложении Google Docs для Android, в котором текст вводится через OCR. Это подвержено ошибкам, конечно.

Я бы хотел, чтобы функциональность блокировки PDF никогда не существовала. :(

0
harrymc

Ответ эндолиту:

Ваш PDF защищен от копирования, но не защищен от печати.

Поэтому я распечатал одну страницу, содержащую таблицу 6.15, в другой PDF-файл, который не защищен от копирования, выделил и скопировал таблицу, а затем вставил ее в Word. К моему большому удивлению, результатом пасты стал полный мусор.

Теперь я еще раз взглянул на эту таблицу и нашел очень удивительный результат: это не таблица!

Это на самом деле монтаж небольших фрагментов текста, расположенных на странице так, чтобы они выглядели как таблица. Но это не настоящая таблица.

Лучшее, что вы можете сделать, это либо переписать все это в виде таблицы, либо просто использовать в своей работе скриншот этого табличного текста.

Вот мой скриншот таблицы, взятый из моего сгенерированного одностраничного PDF-документа :

image

Я попытался напечатать это с 2 программами, но все, что я получил, было чистой страницей. endolith 11 лет назад 0
Используя [Foxit Reader] (http://www.foxitsoftware.com/Secure_PDF_Reader/), я расположился на странице, затем распечатал текущую страницу на PDF-принтере (я использовал [Cute Pdf Writer] (http: // www .cutepdf.com / продукты / CutePDF / writer.asp)). Я попытаюсь проанализировать проблему с копированием таблицы этим вечером, harrymc 11 лет назад 0
Я попробовал PrimoPDF и qvPDF (который использует GhostScript) endolith 11 лет назад 0
Смотрите мое выше дополнение. harrymc 11 лет назад 0
... Я также загрузил свой одностраничный pdf [сюда] (http://depositfiles.com/files/uy697if76) (время ожидания 60 секунд). harrymc 11 лет назад 0
0
endolith

Другая возможность - Evince .

В Windows, кажется, поддерживает копирование по умолчанию.

В Linux копирование можно включить, проверив override_restrictionsнастройку, если это еще не сделано, следуя этим указаниям ( dconf-editor/org/gnome/evinceoverride_restrictions).

0
Rob Sedgwick

Это удалось преобразовать основной текст. Это изобиловало таблицами, хотя.

http://www.onlineocr.net/documents

Похожие вопросы