Какие возможные инструменты для преобразования из PDF в EPUB?

1042
pixelastic

Я знаю, что подобные вопросы задавались ранее, но прежде чем пометить его как дубликат, позвольте мне объяснить.

Я только что купил .pdfэлектронную книгу онлайн и хотел бы иметь ее .epubвместо этого. Я обычно использую calibre(v1.0.0) для такого рода задач с большим успехом. На этот раз, кажется, что большие пропорции линий перепутались во время преобразования.

Jérôme disait aimer le rouge. Sa marotte FRQVLVWDLW VXUWRXW ¡ O#HQOHYHU 'ªJUDIHU OD dentelle était un geste qu'il effectuait avec la 

Даже если вы не говорите по-французски, вы заметите, что средняя линия - это мусор. И это не только бесполезная строка, она заменяет реальный контент.

Программа просмотра электронных книг калибра отображает начальную строку pdfс мусором, в то время как она отлично отображается с моей программой просмотра PDF по умолчанию. Я попытался преобразования в mobi, txt, mkd, но безрезультатно.

Я попробовал pdftotextи онлайн-инструмент http://www.zamzar.com/ и получил такой же вывод.

Я тогда преобразовали pdfв .pbmфайлы и попытался запустить gocrи ocradна нем. Результаты OCR были довольно интересными, но недостаточно хорошими, чтобы использовать их как есть.

Jérôme _sȧit aimer le rouge. Sa marotte consistait surTout à l'enlever. Dégrafer la dentelle était un geste qu_l effectuait avec la 

Хотели бы вы иметь представление о других инструментах, которые могли бы помочь в процессе, или о вариантах тонкой настройки программ калибровки или распознавания?

Примечание: я использую Ubuntu 13.10.

1
Похоже, PDF содержит зашифрованные строки. Возможно в качестве защиты от копирования. PDF также содержит макрос, который автоматически расшифровывает строки при просмотре, если вы используете ридер, который может обрабатывать встроенные макросы. Calibre, zamzar и большинство других программ будут использовать тот же метод, что и pdftotext, для извлечения чистого текста, не проходя макрос дешифрования. Возможно, вам повезет, загрузив PDF-файл в Adobe Reader (я знаю, этот кусок ***) и экспортировав его в формате HTML. Оттуда вы можете перейти к epub. Я бы тоже попробовал импорт PDF из LibreOffice. Tonny 10 лет назад 1
@ Тонни Спасибо за указатель. Я попробовал LibreOffice, но текст все еще не работает. Я попытаюсь взять в свои руки машину Windows, чтобы проверить официальный читатель Adobe. pixelastic 10 лет назад 0
Что-то, что предложил мой шурин: попробуйте ghostscript, чтобы преобразовать PDF из одного макета в другой (например, страницы формата A4 в формат A3 или что-то в этом роде). Преобразование может отменить шифрование (если вам повезет). Tonny 10 лет назад 0
@ Тонни Я пытался конвертировать в ghostscript, но он все еще содержит мусорный текст в конечном выводе. Я также попробую посмотреть, смогу ли я получить хороший вывод из `pdfjs`. pixelastic 10 лет назад 0

0 ответов на вопрос

Похожие вопросы