Как мне не скачивать определенные сайты с помощью wget?

304
Coloradohusky

То, что я сейчас делаю, это

wget www.example.com -m --warc-file="example.com" 

который отлично работает для большинства сайтов, но для этого конкретного сайта, который я сохраняю, существует более тысячи избыточных страниц, таких как www.example.com/eventsf[0]=event_calendar5, при этом сохраняется основной www .example.com / сайт событий?

1
Возможно, вы захотите прочитать [Страница обновленных тегов] (https://stackoverflow.blog/2011/03/24/redesigned-tags-page), прежде чем делать какие-либо дополнительные изменения вики-тегов. Scott 6 лет назад 0

1 ответ на вопрос

1
darnir

Если вы используете относительно новую версию Wget (выпущенную менее 6 лет назад), то вы можете использовать опции --accept-regexили --reject-regex, чтобы использовать регулярное выражение и отказаться от фильтрации URL-адресов, которые вы действительно хотите загрузить.

Так, например, я бы написал `wget www.example.com -m --warc-file" example.com "--reject-regex =" events "`, верно? Coloradohusky 6 лет назад 0
Довольно много да darnir 6 лет назад 0