Обновлено после ввода OP:
Чтобы ввести тип слоя OCR слоя DJVU в файл PDF, то есть напечатать слова в том месте, в котором они появляются в файле DJVU, один из вариантов заключается в программной генерации файла Inkscape или Scribus. Я нарисую процедуру. Нетрудно написать скрипт на выбранном вами языке (Python, Ruby, Racket и т. Д.).
Для каждой страницы файла DJVU экспортируйте слой OCR как HTML или как S-выражение. Я буду предполагать последнее в следующем.
Извлеките размер страницы из
(page x1 y1 x2 y2...
. Ширина страницы =x2-x1
, Высота страницы =y2-y1.
Для каждого слова вычислите ширину, высоту и координаты нижнего левого угла текстового фрейма, который будет содержать его. То есть превратить
(word x1 y1 x2 y2 "another")
в текстовую рамку с левым нижним углом(x1, Page height - y1)
, ширинойx2 - x1
и высотойy2 - y1
.Выберите подходящий шрифт и размер шрифта для текстового фрейма. Используйте высоту прямоугольников слова в качестве руководства. Убедитесь, что текст не растянут по размеру текстового фрейма.
Как только вы закончите добавление всех текстовых фреймов на страницу, экспортируйте файл в PDF. Обратите внимание, что размер страницы намного больше, чем буква или А4. Если вы собираетесь распечатать документ, масштабируйте его в диалоговом окне печати в соответствии с размером бумаги. Чтобы сохранить деревья, сначала распечатайте в файл PDF.
Оригинальный ответ:
Согласно man djvused
, команда 'output-txt'
сгенерирует djvused
скрипт, который предназначен для потребления djvused
.
Для ваших целей лучше использовать (согласно man-странице)
djvused myfile.djvu -e 'print-pure-txt' > myfile.txt
Затем вы можете создать PDF-файл с помощью программы, которая может печатать в PDF.
В зависимости от вашей операционной системы и версии вам может потребоваться установить принтер PDF. Вы также можете открыть его в последней версии Chrome или Firefox и распечатать в PDF.