что-то лучше, чем httrack для загрузки файлов?

2034
Zenet

Я пытаюсь загрузить документы (pdf, tiff, images) с веб-страниц, на которых есть javascript и фреймы. пример: http://127.0.0.1/web/guest/en/websys/webArch/mainFrame.cgi

'httrack --get-files' не загружал ни одного, есть ли другие способы, которые вы можете подумать? другая программа? я должен буду написать эту программу сам?

Большое спасибо!

0

1 ответ на вопрос

0
Doug Harris

Поскольку этот URL оканчивается на «cgi», я бы предположил, что на сервере выполняется сценарий CGI - это означает, что он, вероятно, ожидает другие данные. Есть несколько вариантов, где можно получить эти данные

Во-первых, эти другие данные могут поступить из вашего сеанса. Посмотрите на документы для wget, --load-cookiesчтобы указать, что он должен использовать файл cookie из вашего браузера (инструкции на моем компьютере относятся к старым форматам файлов cookie браузера).

Другой вариант заключается в том, что он ожидает данные POST от вашего браузера. Вам нужно выяснить, что такое переменные и значения формы, и передать их, используя wget --post-dataили --post-fileопции.

Спасибо за ваш ответ, Даг, но я не уверен, что понимаю, что нужно делать с постданными, не могли бы вы привести пример? Zenet 13 лет назад 0
Вам нужно будет использовать инструмент для проверки данных, отправленных при нажатии на ссылку в браузере - Fiddler2 - хороший вариант, если вы работаете в Windows. Как только вы это сделаете, вам нужно будет закодировать его таким образом, чтобы он передавался как данные POST - на странице википедии есть пример запросов POST http://en.wikipedia.org/wiki/POST_(HTTP) Doug Harris 13 лет назад 0