Для PDF есть pdfsandwich
pdfsandwich генерирует pdf-файлы «сэндвич» OCR, то есть pdf-файлы, которые содержат только изображения (без текста), будут обрабатываться с помощью оптического распознавания символов (OCR), а текст будет добавляться на каждую страницу незаметно «за» изображениями.
Это двухэтапный процесс:
Добавьте текст OCR в новый PDF-файл с помощью (здесь я использую движок Tesseract OCR с французским языком):
pdfsandwich -sloppy_text -tesseract /path/to/tesseractbin -tesso -l fra ./original.pdf -o ./ocr.pdf
Затем конвертируйте PDF / OCR в DjVu с помощью:
pdf2djvu -o ./ocr.djvu ./ocr.pdf