Как мне научить tesseract игнорировать волнистые линии, добавленные из орфографических и грамматических ошибок?

445
GdD

Я использую tesseract для обнаружения текста на различных типах изображений, в том числе на снимках экрана, его спутывают волнистые красные и синие подчеркивания для орфографических и грамматических предупреждений, как в примере ниже. Я не получаю ни текста, ни искаженного беспорядка.

Как мне научить tesseract игнорировать волнистые линии, добавленные из орфографических и грамматических ошибок?

Я рассмотрел способы устранения этих строк в предварительной обработке imagemagick с некоторым успехом, но эти методы удаляют любой текст, который является красным или синим, что нежелательно - плюс они занимают много времени, и мне нужно обработать более 100 КБ. изображений в день. Я думаю, что, возможно, есть способ научить тессеракт распознавать и отбрасывать эти строки, но я не уверен, как это сработает.

Я видел учебники о том, как обучить tesseract распознавать текст, но я не видел ничего, как научиться распознавать что-то, что не является текстом. Есть ли способ, которым я могу обучить тессеракт или сделать что-то с помощью настройки Leptonica, которую он использует, чтобы игнорировать эти строки?

Если кто-то успешно справился с этим, пожалуйста, дайте мне знать, в противном случае, какой будет рекомендуемый подход?

1

0 ответов на вопрос

Похожие вопросы