OCR Tesseract, Ошибка пустой страницы?

14403
Jim

Я собрал это из источников с leptonica. Это изображение в формате png с прозрачным фоном, которое я отредактировал, добавив синий цвет, и все еще эта ошибка:

Tesseract Open Source OCR Engine v3.02.02 with Leptonica Empty page!! Empty page!! 

Вот входное изображение:

enter link description here

5

3 ответа на вопрос

5
zx1986

try the psm option.

-psm N Set Tesseract to only run a subset of layout analysis and assume a certain form of image. The options for N are: 0 = Orientation and script detection (OSD) only. 1 = Automatic page segmentation with OSD. 2 = Automatic page segmentation, but no OSD, or OCR. 3 = Fully automatic page segmentation, but no OSD. (Default) 4 = Assume a single column of text of variable sizes. 5 = Assume a single uniform block of vertically aligned text. 6 = Assume a single uniform block of text. 7 = Treat the image as a single text line. 8 = Treat the image as a single word. 9 = Treat the image as a single word in a circle. 10 = Treat the image as a single character. 

Reference: http://hilojack.sinaapp.com/?p=866

3
Arijoon

Обработайте ваше изображение до порогового цвета фона. Переключите цвет текста на черный (для лучшего распознавания. После того, как вы установили пороговое значение фона, изменение значений цвета должно быть довольно простым). Превратите ваше изображение в оттенки серого. Затем конвертируйте в .tifформат.

Теперь у вас есть шанс обработать это изображение (супер-пользователь не позволяет мне публиковать изображения, поэтому я связываю их):

Обработанное изображение

Теперь запустите следующую команду:

tesseract test.tif test_output -psm 7 

и результат был:

Tist 

Что очень хорошо, учитывая, что я не использовал никаких дополнительных данных о тренировках, кроме стандартного англ.

Скриншот результата

2
reiniero

Тессеракт не обучен распознавать почерк. Не знаю, что он делает с этими цветами.

Вы можете попробовать обучить тессеракту этим почерком ...

Похожие вопросы