OCR, который добавляет сгенерированный текст в исходные файлы PDF и DJVU?

1597
Tim

Моя ОС - Ubuntu.

Я обнаружил, что есть некоторые приложения, которые могут распознать файл pdf или djvu, генерируя другой текстовый файл.

Но мне было интересно, как добавить текст OCRed в исходные файлы pdf или djvu, чтобы сделать его текстовым для выбора в исходных файлах pdf или djvu, как это делает Adobe Acrobat в Windows?

2

2 ответа на вопрос

2
meda beda

Для PDF есть pdfsandwich

pdfsandwich генерирует pdf-файлы «сэндвич» OCR, то есть pdf-файлы, которые содержат только изображения (без текста), будут обрабатываться с помощью оптического распознавания символов (OCR), а текст будет добавляться на каждую страницу незаметно «за» изображениями.

Это двухэтапный процесс:

  1. Добавьте текст OCR в новый PDF-файл с помощью (здесь я использую движок Tesseract OCR с французским языком):

    pdfsandwich -sloppy_text -tesseract /path/to/tesseractbin -tesso -l fra ./original.pdf -o ./ocr.pdf

  2. Затем конвертируйте PDF / OCR в DjVu с помощью:

    pdf2djvu -o ./ocr.djvu ./ocr.pdf

2
Édouard Lopez

Я начал проект Bash на github, чтобы помочь конвертировать PDF в PDF + OCR и DjvU + OCR . Это основано на ответе @ meda-beda и некоторых изменениях, которые я добавил.

Это оболочка из pdfSandwich и pdf2djvu.

Он был разработан и протестирован под Ubuntu-12.10, я считаю, что работа над опцией настройки результирующего файла (иногда больше, чем оригинал) еще предстоит проделать.

Похожие вопросы