wget не скачивает файлы с поддоменов

418
Rajeev

Я хочу скачать PDF-файлы из домена. некоторые файлы размещены на поддомене. Как я могу сделать так, чтобы wget скачивался с поддоменов?

Пример: я пытаюсь загрузить файлы с этого веб-сайта, где файлы размещаются на cache-www.belkin.com, тогда как реальный веб-сайт размещен на www.belkin.com. Как я мог решить это?

Используемая команда:

wget -r -D www.belkin.com, cache-www.belkin.com --tries = 0 - продолжить -l1 -A pdf -e роботы = выкл -U Mozilla http://www.belkin.com/us / поддержка-поиск д = документ: Оценка и показать = Все

0
некоторые идеи - есть -H, но это зашло бы слишком далеко .. также я не думаю, что wget поддерживает подстановочные знаки ... и, возможно, ни один не делает curl .. Вы только пытаетесь пойти `-r -l 1`, то есть ссылки на глубину 1, так что вы можете использовать grep, чтобы найти все ссылки на странице, а затем получить файл со всеми необходимыми ссылками. Тогда `wget -i fileofurls` и wget` -t 1 -T 5 -w 1` всегда хороши для того, чтобы не нагружать сервер и не быть забаненными сервером. barlop 6 лет назад 1
например, ради, я дал уровень 1. Есть некоторые случаи использования, когда я хочу пойти немного глубже. Я пытался -H, но это становится неуправляемым. Rajeev 6 лет назад 0
Я полагаю, что одним из способов было бы написать программу, которая выполняет wget на странице, выполняет grep для получения URL-адресов, grep для фильтрации по URL, находящимся в нужном поддомене, и повторяет это в зависимости от того, какую глубину вы хотите. (не уверен, что это должно быть или должно быть рекурсивным, а не итеративным, может потребоваться некоторая путаница, чтобы убедиться, что он не входит в бесконечный цикл и получает все, что вы хотите, и не более), но как только вы получите программа работает, затем есть список всех URL, которые вы хотите, а затем wget -i на нем. barlop 6 лет назад 0

0 ответов на вопрос

Похожие вопросы