OCR Tesseract, Ошибка пустой страницы?

Question

OCR Tesseract, Ошибка пустой страницы?

14403

Jim 2013-01-18 в 04:41

Я собрал это из источников с leptonica. Это изображение в формате png с прозрачным фоном, которое я отредактировал, добавив синий цвет, и все еще эта ошибка:

Tesseract Open Source OCR Engine v3.02.02 with Leptonica Empty page!! Empty page!!

Вот входное изображение:

enter link description here

5

3 ответа на вопрос

5

3

Arijoon 2014-08-15 в 15:31

Обработайте ваше изображение до порогового цвета фона. Переключите цвет текста на черный (для лучшего распознавания. После того, как вы установили пороговое значение фона, изменение значений цвета должно быть довольно простым). Превратите ваше изображение в оттенки серого. Затем конвертируйте в .tifформат.

Теперь у вас есть шанс обработать это изображение (супер-пользователь не позволяет мне публиковать изображения, поэтому я связываю их):

Обработанное изображение

Теперь запустите следующую команду:

tesseract test.tif test_output -psm 7

и результат был:

Tist

Что очень хорошо, учитывая, что я не использовал никаких дополнительных данных о тренировках, кроме стандартного англ.

Скриншот результата

2

reiniero 2013-02-22 в 12:13

Тессеракт не обучен распознавать почерк. Не знаю, что он делает с этими цветами.

Вы можете попробовать обучить тессеракту этим почерком ...

Accepted Answer · 2013-07-26 09:18:06

try the psm option.

-psm N Set Tesseract to only run a subset of layout analysis and assume a certain form of image. The options for N are: 0 = Orientation and script detection (OSD) only. 1 = Automatic page segmentation with OSD. 2 = Automatic page segmentation, but no OSD, or OCR. 3 = Fully automatic page segmentation, but no OSD. (Default) 4 = Assume a single column of text of variable sizes. 5 = Assume a single uniform block of vertically aligned text. 6 = Assume a single uniform block of text. 7 = Treat the image as a single text line. 8 = Treat the image as a single word. 9 = Treat the image as a single word in a circle. 10 = Treat the image as a single character.

Reference: http://hilojack.sinaapp.com/?p=866

OCR Tesseract, Ошибка пустой страницы?

3 ответа на вопрос

Похожие вопросы