Как мне научить tesseract игнорировать волнистые линии, добавленные из орфографических и грамматических ошибок?
Я использую tesseract для обнаружения текста на различных типах изображений, в том числе на снимках экрана, его спутывают волнистые красные и синие подчеркивания для орфографических и грамматических предупреждений, как в примере ниже. Я не получаю ни текста, ни искаженного беспорядка.
Я рассмотрел способы устранения этих строк в предварительной обработке imagemagick с некоторым успехом, но эти методы удаляют любой текст, который является красным или синим, что нежелательно - плюс они занимают много времени, и мне нужно обработать более 100 КБ. изображений в день. Я думаю, что, возможно, есть способ научить тессеракт распознавать и отбрасывать эти строки, но я не уверен, как это сработает.
Я видел учебники о том, как обучить tesseract распознавать текст, но я не видел ничего, как научиться распознавать что-то, что не является текстом. Есть ли способ, которым я могу обучить тессеракт или сделать что-то с помощью настройки Leptonica, которую он использует, чтобы игнорировать эти строки?
Если кто-то успешно справился с этим, пожалуйста, дайте мне знать, в противном случае, какой будет рекомендуемый подход?
0 ответов на вопрос
Похожие вопросы
-
3
Imagemagick, Snow Leopard и PDF Conversion
-
6
Как объединить PDF-файлы с помощью Imagemagick (проблема с разрешением)
-
1
Выполнить команду на паре файлов
-
-
1
ImageMagick's 'convert' не устанавливает разрешение?
-
1
ImageMagick - заменить прозрачную часть GIF сплошным цветом?
-
2
XAMPP + Windows 7 + ImageMagick = Невозможно?
-
2
Попытка установить Rmagick на Debian
-
2
Невозможно запустить 'display' после установки ImageMagick в Ubuntu
-
5
Существует ли серверная программа для работы с видео?
-
2
ImageMagick конвертировать