Откуда RECAPTCHA берет эти слова?

1375
Timwi

Я спрашиваю только из любопытства.

Сегодня я столкнулся с несколькими действительно странными словами во время записи в RECAPTCHA:

  • indelms
  • sumbetat
  • polietry
  • grevolfa

Если это были разумные слова на любом языке, поиск в Google должен дать несколько разумных страниц, которые используют эти слова в предложении. Однако числа результатов Google для вышеупомянутых слов - 3, 0, 27 и 0. Хиты - явно неправдоподобные опечатки для других, разумных слов.

Итак, откуда RECAPTCHA берет эти слова? (Примечание: «Книги» не является достаточным ответом :) Я ищу объяснение высокой распространенности, казалось бы, несуществующих слов ...)

3
Если этот вопрос здесь не по теме, какой сайт StackExchange будет более подходящим? Timwi 13 лет назад 1

1 ответ на вопрос

8
William Hilsum

Ну, ответ - книги.

Они могут быть отсканированы неправильно, с других языков, или даже автор написал их неправильно.

Я предлагаю вам прочитать страницу о Recaptcha .

Excert

Для архивации человеческих знаний и повышения доступности информации для мира многие проекты в настоящее время оцифровывают физические книги, написанные до компьютерного века. Страницы книги фотографически сканируются, а затем преобразуются в текст с помощью «Оптического распознавания символов» (OCR). Преобразование в текст полезно, потому что при сканировании книги создаются изображения, которые трудно хранить на небольших устройствах, которые дороги для загрузки и не подлежат поиску. Проблема в том, что OCR не идеален.

alt text

reCAPTCHA улучшает процесс оцифровки книг, посылая слова, которые не могут быть прочитаны компьютерами, в Интернет в форме CAPTCHA для расшифровки людьми. Более конкретно, каждое слово, которое не может быть правильно прочитано с помощью OCR, помещается на изображение и используется как CAPTCHA. Это возможно, потому что большинство программ OCR предупреждают вас, когда слово не может быть прочитано правильно.

редактировать

Как я уже сказал, ошибка в OCR -

Я полагаю, что Инделмс должен быть индейцем - он находится в Уставе США в Большом Томе 40 Часть 2

Полиетрия - скорее всего, неправильно отсканировано из Popliteal - медицинский термин.

Это не отвечает на мой вопрос. Это только повторяет о странице ReCAPTCHA. Кроме того, я уже рассмотрел возможность «других языков» в своем вопросе, поэтому я не уверен, что вы даже полностью прочитали мой вопрос. Timwi 13 лет назад 0
@Timwi - обновил мой ответ, опять же, я уверен, что это просто ошибки OCR, если вы когда-либо сканируете документ, вы получаете такие вещи постоянно. Это также могут быть ошибки при распознавании текста с разных языков, я никогда не говорил, что это один из них ... Почему бы Recaptcha лгать об их источниках !? William Hilsum 13 лет назад 2
@Wil: Это не имеет никакого смысла. Вы, кажется, подразумеваете, что слова, которые я вижу, являются * результатом * распознавания текста. Это явно не тот случай. Это сканы из книги. Это сканы * тех слов, где OCR не удалось. * Timwi 13 лет назад 3
@Timwi - Почему отношение? Человек только пытается помочь (и делает все возможное, насколько можно видеть). Да, они являются результатом распознавания текста ... никто не сказал, что распознавание текста идеально, и что результат правильный. Отсканируйте книгу, распечатайте ее, проверьте результат, если есть какие-либо сомнения по этому поводу, поместите оригинал сканирования как капчу. И да, они используют и другие языки - на днях я наткнулся на несколько слов из моего собственного языка (очень маленький европейский язык). Rook 13 лет назад 2
@Rook: Во-первых, в моем комментарии нет «отношения». Я просто указываю на недостатки с его ответом. Во-вторых: точно! Они * помещают исходное сканирование как капчу *, а не как результат распознавания (это не имеет никакого смысла). Поэтому «ошибки в OCR» не является ответом на мой вопрос. Но эти * оригинальные сканы *, которые я вижу, являются бессмысленными словами ни с какого языка вообще. Если бы это были слова из приемлемого языка, даже такого редкого, как баскский, мальтийский или любой другой, Google показывал бы разумные страницы, которые фактически используют это слово в разумном контексте. Но это не так. Timwi 13 лет назад 1
@ Тимви - Нет, не обязательно. Google показывает только части большинства языков, скажем, за последние 30 лет. Языки меняются. Прямо сейчас у меня на полке лежат книги со словами, которые больше не используются сегодня ни в письмах, ни в речах, и будут производить очень мало случаев в Google / Internet вообще. Если бы английский не был сегодняшним языком лингва франка, это наверняка был бы аналогичный случай (попробуйте сравнить английский и американский шекспировский английский ...) Rook 13 лет назад 2
@Rook спасибо - @Timwi Я сказал, что ошибка в OCR, а не ошибка при наборе текста и загрузке - люди делают свою работу лучше, НО, на сканере могут быть пятна, или это может быть просто низкого качества - я нашел источник почему поиск с помощью bing (перейдите по моей ссылке выше, и вы можете убедиться в этом сами), почему так трудно представить, что подобное происходит с другими результатами? William Hilsum 13 лет назад 0