Тренинг Tesseract-OCR для шрифтов английского языка

2883
andrew

У меня есть около 3000 небольших изображений отдельных слов, которые я пытаюсь преобразовать в текст. Я установил tesseract на свой компьютер под управлением Windows 7 с помощью установщика и успешно сумел распознать образы через cmd и powershell.

 tesseract.exe imagename.png imagename 

создает текстовый файл с преобразованным текстом.

Результаты, которые я получил, были ужасны, только около 40% персонажей были успешно преобразованы. Я хотел бы улучшить результаты.

Кто-нибудь знает, какие дополнительные конфигурации могут быть приведены в этой команде? Обязательные аргументы:

tesseract imagename outputbase [- lang] [configfile [+|-]varfile]...] 

Также может кто-то описать процедуру обучения, мне трудно понять документацию . Я знаю, что мой текст во времена новый римский. Нужно ли обучать его для TNR или он уже встроен и / или можно ли загружать файлы, которые позволяют tesseract его распознавать?

3
Я нашел несколько документов для обучения http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3 andrew 13 лет назад 0
После прочтения инструкций, которые нашел @andrew (вы), какую часть вы не понимаете? Как далеко вы продвинулись в этом процессе? Everett 11 лет назад 0

1 ответ на вопрос

0
Pranaysharma

Один из способов удалить результаты - это предварительно обработать их, например удалить любые перекосы и пороговые значения. Вы можете использовать открытое резюме. Позже вы можете обучить текст

Похожие вопросы