Сделать wget загрузкой ресурсов страницы в другом домене

6658
Parsa

Как вы используете wget для загрузки всего сайта (домен A), когда его ресурсы находятся в другом домене (домен B)?
Я пробовал:
wget -r --level=inf -p -k -E --domains=domainA,domainB http://www.domainA

12
Вот Это Да! Никто после всего этого времени? Parsa 14 лет назад 0
Причина, по которой команда не работает, заключается в том, что использование `--domains` само по себе не включает` --span-hosts`. Добавление `--span-hosts` решило бы проблему. : | Parsa 10 лет назад 0

3 ответа на вопрос

11
Parsa
wget --recursive --level=inf --page-requisites --convert-links --html-extension \ --span-hosts=domainA,domainB url-on-domainA 

ОБНОВЛЕНИЕ: я помню, что команда выше работала для меня в прошлом (это был 2010 год, и я тогда использовал GNU Tools для Windows ); однако я должен был изменить это на следующее, когда я хотел использовать это сегодня:

wget --recursive --level=inf --page-requisites --convert-links \ --adjust-extension --span-hosts --domains=domainA,domainB domainA 

Сокращение для этого было бы: wget -rEDpkH -l inf domainA,domainB domainA

  • -r знак равно --recursive
  • -l <depth> знак равно --level=<depth>
  • -E знак равно --adjust-extension
  • -p знак равно --page-requisites
  • -K знак равно --backup-converted
  • -k знак равно --convert-links
  • -D <domain-list> знак равно --domain-list=<domain-list>
  • -H знак равно --span-hosts
  • -np знак равно --no-parent
  • -U <agent-string> знак равно --user-agent=<agent-string>

Руководство по GNU Wget: https://www.gnu.org/software/wget/manual/wget.html

Я получаю: wget: --span-hosts: недопустимый логический `domainA, domainB '; используйте `on 'или` off'. После включения он не работает. Matthew Flaschen 10 лет назад 0
@MatthewFlaschen То, что я здесь написал, сработало для меня. Не могли бы вы привести аргументы, которые вы использовали? Parsa 10 лет назад 0
У меня нет точной команды, которую я выполнял раньше. Однако у меня та же проблема с: `wget --recursive --level = inf - page-Requisites --convert-links --html-extension --span-hosts = example.org, iana.org example.org `Я использую GNU Wget 1.13.4 в Debian. Matthew Flaschen 10 лет назад 0
Попробуйте `--span-hosts --domains = example.org, iana.org` - я думаю, что` --span-hosts` должен быть логическим, и затем вы используете `--domains`, чтобы указать, какие хосты охватывать , Konklone 10 лет назад 2
Konklone, --span-hosts - логическое значение с 1.12 и позже, я этого не знал. @ MatthewFlaschen, я обновил ответ. Кстати, это все еще будет работать на 1.11 и более ранних, если вы используете GNU Tools для Windows. Parsa 10 лет назад 0
1
mnml

wget --recursive --level = inf - реквизиты страницы --convert-links --html-расширение -rH -DdomainA, domainB domainA

Это отчасти работает. Однако, по некоторым причинам, это не работает, если URL (в конце) является перенаправлением. Кроме того, он также загружает ссылки, а не только реквизиты страниц. Кроме того, -r и --recursive являются одинаковыми. Matthew Flaschen 10 лет назад 0
0
Matthew Flaschen
wget --page-requisites --convert-links --adjust-extension --span-hosts --domains domainA,domainB domainA 

Возможно, вам придется игнорировать файл robots.txt (обратите внимание, что это может быть нарушением некоторых условий обслуживания, и вам следует загрузить необходимый минимум). См. Https://www.gnu.org/software/wget/manual/wget.html#Robot-Exclusion .

Похожие вопросы