Если вы используете относительно новую версию Wget (выпущенную менее 6 лет назад), то вы можете использовать опции --accept-regex
или --reject-regex
, чтобы использовать регулярное выражение и отказаться от фильтрации URL-адресов, которые вы действительно хотите загрузить.
Как мне не скачивать определенные сайты с помощью wget?
304
Coloradohusky
То, что я сейчас делаю, это
wget www.example.com -m --warc-file="example.com"
который отлично работает для большинства сайтов, но для этого конкретного сайта, который я сохраняю, существует более тысячи избыточных страниц, таких как www.example.com/eventsf[0]=event_calendar5, при этом сохраняется основной www .example.com / сайт событий?
Возможно, вы захотите прочитать [Страница обновленных тегов] (https://stackoverflow.blog/2011/03/24/redesigned-tags-page), прежде чем делать какие-либо дополнительные изменения вики-тегов.
Scott 6 лет назад
0
1 ответ на вопрос
1
darnir
Так, например, я бы написал `wget www.example.com -m --warc-file" example.com "--reject-regex =" events "`, верно?
Coloradohusky 6 лет назад
0
Довольно много да
darnir 6 лет назад
0
Похожие вопросы
-
2
.profile в Mac OS X?
-
1
Приостановить все, кроме x задач, интенсивно использующих процессор
-
10
Как я могу найти в истории bash и повторно запустить команду?
-
-
2
Можно ли передать выходные данные одной команды двум другим командам?
-
8
Переименуйте группу файлов одной командой
-
2
Почему мой путь не обновляется * сейчас *?
-
5
Как удалить символическую ссылку на каталог?
-
8
Спаси меня от бессмысленного терминала
-
2
Звоните, но не загружайте страницу с помощью wget
-
9
Как можно добавить номер строки и табуляцию к каждой строке текстового файла?