Этот сайт интенсивно использует JavaScript (jQuery).
Для начала я предлагаю сделать следующее:
- Установите Firefox
- Установите дополнение Tamper Data
- Загрузите сайт, начните фальсификацию
- Поэкспериментируйте с инструментом запросов и посмотрите на запросы XMLHttpRequest, которые вы автоматически генерируете (см. Журналы данных несанкционированного доступа)
Возможно, этого уже достаточно для определения соответствующих запросов и того, как они создаются. Если это не сработает, вам придется прочитать исходники javascript.
Поскольку все запросы, скорее всего, являются запросами HTTP GET и HTTP POST с конкретными параметрами, вы можете начать автоматизацию, например, с помощью такого инструмента, как curl
. Кроме того, scrapy
действительно выглядит многообещающе и, кажется, приносит много приятных функций (хотя сам не проверял).
Вместо использования Firefox с надстройкой Temper Data, вы также можете использовать любой другой браузер для захвата HTTP-трафика, например, с помощью wireshark .