Один из способов удалить результаты - это предварительно обработать их, например удалить любые перекосы и пороговые значения. Вы можете использовать открытое резюме. Позже вы можете обучить текст
Тренинг Tesseract-OCR для шрифтов английского языка
У меня есть около 3000 небольших изображений отдельных слов, которые я пытаюсь преобразовать в текст. Я установил tesseract на свой компьютер под управлением Windows 7 с помощью установщика и успешно сумел распознать образы через cmd и powershell.
tesseract.exe imagename.png imagename
создает текстовый файл с преобразованным текстом.
Результаты, которые я получил, были ужасны, только около 40% персонажей были успешно преобразованы. Я хотел бы улучшить результаты.
Кто-нибудь знает, какие дополнительные конфигурации могут быть приведены в этой команде? Обязательные аргументы:
tesseract imagename outputbase [- lang] [configfile [+|-]varfile]...]
Также может кто-то описать процедуру обучения, мне трудно понять документацию . Я знаю, что мой текст во времена новый римский. Нужно ли обучать его для TNR или он уже встроен и / или можно ли загружать файлы, которые позволяют tesseract его распознавать?
1 ответ на вопрос
Похожие вопросы
-
3
Какое программное обеспечение может преобразовать почерк в текст?
-
3
Как я могу определить шрифты на изображении?
-
3
Что такое хорошее программное обеспечение для распознавания рукописного ввода?
-
-
9
Как извлечь текст с помощью OCR из PDF в Linux?
-
8
Практическое решение для оптического распознавания текста для преобразования большой книги в цифрово...
-
8
Как я могу преобразовать отсканированные изображения в формате PDF в PDF-файл с возможностью поиска?
-
1
Можно ли вызвать Acrobat из командной строки для выполнения OCR?
-
7
Извлечение текста из отсканированной книги .PDF
-
3
Как запустить сканирование OCR в Microsoft Office Word 2010?
-
2
Преобразователь изображения в текст