Тессеракт OCR: неподдерживаемый тип изображения

Question

Тессеракт OCR: неподдерживаемый тип изображения

4396

Nina 2014-07-02 в 08:45

Я преобразовал PDF в TIF файл, используя следующие команды на терминале

convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif

convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif

Затем я попытался запустить makeboxкоманду,

tesseract lang.font-name.exp0.tif lang.font-name.exp0 batch.nochop makebox

который произвел следующую ошибку:

Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in findTiffCompression: function not present Error in pixReadStreamTiff: function not present Error in pixReadStream: tiff: no pix returned Error in pixRead: pix not read Unsupported image type.

И если предположить, что это что-то, связанное с командой libtiff, запустил tesseract -vи обнаружил (или предположил), что оно отсутствует

tesseract 3.02.02 leptonica-1.70 libjpeg 8d : libpng 1.6.10 : zlib 1.2.5

Это производит то же самое, даже если я удаляю и переустанавливаю lib tiff. Не уверен, что мне здесь не хватает. Пожалуйста посоветуй!

brew rm -f libtiff brew cleanup brew missing brew doctor find /usr/local -user root brew install libtiff

Вывод команды brew info leptonica here

Правка № 1

Произвел этот tiff-файл, используя GhostScriptкоторый возвращает ту же ошибку, когда я пытаюсь запустить makeboxкоманду. Может быть, что-то еще мне не хватает? Я установил размер шрифта 50+, это нормально?

https://dl.dropboxusercontent.com/u/97646145/Issue/Tiff_File.zip (~ 4 МБ)

Редактировать № 2

Я создал одну страницу, используя TIFF GhostScript, даже если он не работает ??

https://dl.dropboxusercontent.com/u/97646145/Issue/Onepage_TIFF.zip (~ 60 КБ)

5

действительно классный вопрос! Harry Moreno 9 лет назад 0

@HarryMoreno Спасибо! какие-либо предложения? :) Nina 9 лет назад 0

1 ответ на вопрос

3

Accepted Answer · 2014-07-02 10:01:53

Cornelius 2014-07-02 в 10:01

Я предполагаю, что вы читаете пост Михаэля Лисснера, чтобы добавить собственный шрифт в Tesseract.

Я попробовал то же самое ( convertкоманду) и получил сломанный TIFF, который нельзя открыть ни с каким приложением.

Поэтому я выбрал альтернативу GUI. Я написал свой текст в Scribus (потому что это позволило мне увеличить расстояние между символами), а затем экспортировал его непосредственно в формате TIFF из меню Файл - Экспорт - Сохранить как изображение . Я выбрал разрешение 300 DPI.

Что еще вы можете попробовать:

GIMP открывает PDF-файлы, которые можно сохранить в формате TIFF
Ghostscript: gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>(он конвертирует все страницы, если это так)

С какими еще проблемами вы можете столкнуться:

Linux: если вы установили версию Tesseract для репозитория (по крайней мере, в Ubuntu), у вас не будет необходимых исполняемых файлов: unicharset_extractorи mftraining(или они не в пути, потому что пакет должен включать их ).

Это точно такой же пост, за которым я следовал .. Я бы попробовал и дал знать, как все прошло! Спасибо! Nina 9 лет назад 0

Можете ли вы проверить мой обновленный вопрос? Nina 9 лет назад 0

@ Нина, это TIFF на 75 страниц. Я не думаю, что это обрабатывает многостраничность. Cornelius 9 лет назад 0

Так я должен сделать это одной страницы TIF и попробовать? @Cornelius Что если я хочу многостраничный TIF? Nina 9 лет назад 0

@ Нина не знает, что сказать. Я рекомендую сделать 3 TIFF формата A4 (один для обычного, полужирного и курсива) с оттенками серого 300 DPI. В моем случае это сработало отлично. Также TIFF не были размером +600 МБ. Cornelius 9 лет назад 0

Спасибо за помощь Корнелиус .. Я бы сделал, как предложено, и попытать счастья! Помечу ваши ответы как только я получу их на одной странице :) Еще раз спасибо! Nina 9 лет назад 0

даже одна страница TIF не работает для меня :( Nina 9 лет назад 0

Вы всегда можете запустить bash-скрипт для пакетной обработки всех страниц. Но да, вам нужно, чтобы сначала работала одна страница. Harry Moreno 9 лет назад 1

@HarryMoreno Попытка заставить работать одну страницу .. Nina 9 лет назад 0

Тессеракт OCR: неподдерживаемый тип изображения

1 ответ на вопрос

Похожие вопросы