Wget не выходя из читаемого домена

303
Joao

Linux Centos 6-64

Что я должен добавить в wget, чтобы он только читал ссылки на запрошенный домен и не переходил на другие домены, упомянутые в загружаемом сайте?

Пример: при зеркалировании site1.com он идет на site2.com, потому что внутри site1.com есть ссылка на site2.com

Поскольку я не знаю, какие site2.com, site3.com и т. Д. Он найдет, я не нашел подходящего для использования параметра исключения домена.

Есть ли возможность для него читать только ссылки на site.com?

Спасибо

0

1 ответ на вопрос

1
RedGrittyBrick

man wget говорит

 -D domain-list --domains=domain-list Set domains to be followed. domain-list is a comma-separated list of domains. Note that it does not turn on -H. 

Обратите внимание, что GNU wget охватывает хосты говорит

Рекурсивный поиск Wget обычно отказывается посещать хосты, отличные от тех, которые вы указали в командной строке. Это разумное значение по умолчанию; без него каждый поиск может превратить ваш Wget в маленькую версию Google.

Так, может быть, вы по какой-то причине используете -H?

Ограничение охвата определенными доменами —'- D '

Опция '-D' позволяет вам указать домены, за которыми будут следовать, тем самым ограничивая рекурсию только для хостов, которые принадлежат этим доменам. Очевидно, что это имеет смысл только в сочетании с «-H». Типичным примером может быть загрузка содержимого «www.example.com», но разрешается загрузка с «images.example.com» и т. Д .:

 wget -rH -Dexample.com http://www.example.com/ 
Привет Брик, да, действительно не хватало -D, теперь все в порядке, спасибо Joao 5 лет назад 0

Похожие вопросы