OCR с неязыковым текстом

4677
Daniel

Мне интересно использовать OCR для распознавания текста из документа, который не содержит слов. Скорее, это документ с длинной строкой «случайных» печатных символов. Я пытался использовать tesseract для сканирования текста, но, похоже, он ищет слова. Есть ли способ заставить tesseract просто распознавать символы?

3
Я обновил вопрос, чтобы исправить жалобу. Daniel 10 лет назад 0
Старый Престо! PageManager, поставляемый со сканером, по умолчанию не проверял орфографию (windows), у него есть проверка орфографии, но после OCR. Интересно, можете ли вы пропустить словарь на любом программном обеспечении, выполняющем автокоррекцию, тогда он не смог бы это сделать. OCR по умолчанию не просматривает целые слова, кроме Мейби для выравнивания. Psycogeek 10 лет назад 0
@ Даниель - Теперь это вопрос, на который можно ответить. Ramhound 10 лет назад 1

1 ответ на вопрос

2
nguyenq

Yes, you can disable the dictionaries by defining a configuration file containing:

load_system_dawg F load_freq_dawg F 

and specify it with the command.

Похоже, это делает то, что я хотел. К сожалению, результаты не намного лучше для текста, с которым я работал, но он действительно отвечает на вопрос. Спасибо! Daniel 10 лет назад 0

Похожие вопросы