Оптимальный шрифт для Tesseract? (в частности, оболочка .NET)

1214
user613051

Я использую Tesseract как средство для преобразования печатных текстовых документов, снятых моей камерой мобильного телефона, в текст. Результаты не велики. Качество изображения очень хорошее, намного более четкое, чем у факса, но, похоже, очень сложно идентифицировать символы.

Я также попытался имитировать один из этих документов в текстовом редакторе, сделать снимок экрана с окном и запустить его через Tesseract, и результаты были лишь незначительно лучше.

Это наводит меня на мысль, что, вероятно, есть оптимальный шрифт для Tesseract. Я немного погуглил и наткнулся на OCR-A, но для него, видимо, нужна лицензия. Затем я наткнулся на бесплатную альтернативу OCR-A на SourceFourge, но, похоже, он не намного лучше, чем Arial или Courier New.

Есть ли шрифт, который лучше всего работает с Tesseract, или мне нужно сделать что-то еще, чтобы повысить точность распознавания символов?

0
Вы правильно загрузили словарь, верно? Daniel B 7 лет назад 0
@DanielB Хороший вопрос. Я на самом деле использую это как средство для преобразования относительно небольших файлов данных в base64, а затем печатаю их на бумаге для резервного копирования. Это та же идея, что и в мягкой обложке. Есть идеи, как создать свой собственный словарь? Я мог бы попытаться создать словарь для каждой возможной строки base64 и посмотреть, поможет ли это с точностью. user613051 7 лет назад 0
Почему бы не печатать также QR-коды рядом с текстом? Máté Juhász 7 лет назад 0
@ MátéJuhász Я думал о создании QR-кодов из-за объема данных, которые они могут хранить, но не удосужился найти приложения для чтения QR-кодов, которые не требуют всех разрешений, известных человечеству. user613051 7 лет назад 0

1 ответ на вопрос

0
cybernard

Ваш лучший выбор - обучить его тому шрифту, который вы используете.

Я не хочу притворяться, что это легкий процесс, это не так, но он должен работать лучше. Кроме того, большинство программ распознавания текста предпочитают 300 dpi или 600 dpi, поэтому может потребоваться масштабирование.

Tesseract Github Wiki имеет несколько хороших ресурсов по обучению Tesseract .