Дву в PDF включая текстовый слой

513
nullUser

Попытка конвертировать djvu с текстовым слоем в pdf с текстовым слоем. Я перепробовал все методы в этом посте, и ни один из них не сохранил текстовый слой.

Какие варианты у меня есть?

1

1 ответ на вопрос

1
Marduk

Насколько я знаю, у вас есть два варианта:

  1. Используйте ocrodjvu и pdfbeads, как описано здесь .

    Соответствующие команды, предполагающие, что ваш файл DJVU вызывается, sample.djvuи вы хотите преобразовать страницу 10 в PDF, включая текстовый слой:

    djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

    ddjvu -format=tiff -page=10 sample.djvu pg10.tif

    pdfbeads -o pg10.pdf

  2. Используйте Djview4 для преобразования файла DJVU в PDF, а затем используйте PDF-XChange Viewer для выполнения распознавания текста. Это требует времени, но это чертовски хорошо (даже в двухколоночных документах).

В принципе, эти два варианта должны работать на Mac, Windows и Linux. Для варианта 2. вам понадобится Wine на Mac и Linux.

Я попробовал вариант 1. с одной страницей, и он не закончился менее чем за 10 минут на недавнем ноутбуке с четырехъядерным процессором и 8 ГБ оперативной памяти. YMMV.

Вариант 2. На недавнем настольном компьютере с четырехъядерным процессором и 16 ГБ ОЗУ потребовалось два часа на 50-страничном документе, но результаты впечатляют.

Похожие вопросы