Разбиение изображения текста на слова - возможно ли это?

366
user1993

Мне интересно, есть ли способ разделить отсканированную копию страницы (то есть изображение) на изображения составляющих ее слов. Сканируемая книга написана на индийском языке, для которого OCR (оптическое распознавание символов) не будет работать.

Цель состоит в том, чтобы иметь цифровую версию книги (на том же языке), и для этого я думал о следующем:

  • отсканировать книгу
  • разделить содержимое страницы на составляющие слова
  • отправьте изображения слов транскриберам, которые могут напечатать слово на изображении
  • собрать слова на каждой странице

Поскольку сопоставление изображения с изображением является достаточно хорошим, изображения одного и того же слова могут быть идентифицированы, и, таким образом, не нужно будет транскрибировать повторно.

Любая помощь будет отличной!

0

0 ответов на вопрос

Похожие вопросы