Может ли веб-сайт отличать веб-скребок от легитимного пользователя, исходя из скорости обхода?

235
user239457

Если я уменьшу скорость веб-скребка до скорости человека, сможет ли третье лицо отличить их? Какие еще критерии используют веб-сайты, чтобы различать пользователей и скребки?

0
Разве это не тот сайт, на котором можно задать этот вопрос? Можете ли вы предложить соответствующий сайт user239457 6 лет назад 0
У скребка будет имя хоста, которое находится в определенном списке. Он может иметь идентичность скребка, аналогично тому, как вы будете использовать браузер. Существует множество различных способов идентификации скребка, но это действительно не тот сайт, на котором можно задать этот вопрос. LPChip 6 лет назад 0

1 ответ на вопрос

3
tripleee

Есть много критериев, которые веб-сайт может использовать для определения возможных скребков. Некоторые из них более склонны к ложным срабатываниям, чем другие.

  • Пользовательский агент. Многие скребки имеют User-Agent:заголовок, который легко и надежно идентифицирует их. Многие из следующих характеристик также могут быть соотнесены с тем, User-Agent:чтобы проверить, действительно ли поведение постулированного пользовательского агента соответствует ожидаемому от графического браузера, в котором он может пытаться отображаться.
  • Диапазоны IP. Например, бот, работающий за пределами облачного IP-адреса Google или Amazon, вероятно, автоматизирован (или выходной узел VPN).
  • Время прохождения. Тривиальный бот будет посещать внутренние ссылки сайта с фиксированной задержкой между «щелчками» или с вариацией, которая настолько мала, что не может маскироваться под реального пользователя.
  • Порядок обхода. Тривиальный бот будет посещать внутренние ссылки сайта в том порядке, в котором он их обнаруживает, в то время как пользователь будет посещать только небольшое количество ссылок в менее предсказуемом порядке.
  • Загрузка изображений. Человек, использующий графический браузер, будет демонстрировать несколько предсказуемые всплески параллельных соединений, в некоторой степени также зависящие от доступной пропускной способности и конфигурации браузера. Но многие боты будут получать только одну страницу за раз, и, возможно, полностью обходят графику.
  • Поведение JavaScript. Настоящий браузер с включенным JavaScript будет выполнять полезную нагрузку JavaScript. Некоторые чистящие боты пытаются подражать этому, но многие этого не делают, а те, которые часто делают несовершенную работу.
  • Альтернативные пути. Источник HTML может содержать ссылки в разделах, которые не будут отображаться в конкретном браузере с определенной конфигурацией; но тривиальный бот будет посещать как скрытые, так и открытые ссылки.

Похожие вопросы