Я предполагаю, что вы читаете пост Михаэля Лисснера, чтобы добавить собственный шрифт в Tesseract.
Я попробовал то же самое ( convert
команду) и получил сломанный TIFF, который нельзя открыть ни с каким приложением.
Поэтому я выбрал альтернативу GUI. Я написал свой текст в Scribus (потому что это позволило мне увеличить расстояние между символами), а затем экспортировал его непосредственно в формате TIFF из меню Файл - Экспорт - Сохранить как изображение . Я выбрал разрешение 300 DPI.
Что еще вы можете попробовать:
- GIMP открывает PDF-файлы, которые можно сохранить в формате TIFF
- Ghostscript:
gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>
(он конвертирует все страницы, если это так)
С какими еще проблемами вы можете столкнуться:
- Linux: если вы установили версию Tesseract для репозитория (по крайней мере, в Ubuntu), у вас не будет необходимых исполняемых файлов:
unicharset_extractor
иmftraining
(или они не в пути, потому что пакет должен включать их ).