wget: отключить принудительное восстановление .html

503
Mike B

При выполнении рекурсивной загрузки я определяю шаблон через параметр -R, чтобы wget отклонял его, но если этот файл является HTML-файлом, wget загружает файл независимо от того, соответствует он шаблону или нет.

например

wget -r -R "* dynamicfile *" example.com 

по-прежнему получает файлы, такие как example.com/dynamicfile1.html

Есть ли способ предотвратить это?

0

1 ответ на вопрос

0
Jarvin

Это происходит потому, что wget использует html-файлы, чтобы знать, где сканировать дальше, когда сканирует веб-страницу. Я бы просто позволил wget заняться своими делами, а затем сделать rm * .html после того, как это будет сделано, или что-то подобное.

РЕДАКТИРОВАТЬ: Выполнение rsync *dynamicfile* /foo/barвторого каталога может быть лучшим способом фильтрации ваших файлов, чтобы сохранить только те, которые имеют правильное имя (при условии, что вы хотите сохранить некоторые html-файлы, если они имеют правильное имя)

Я пытаюсь отфильтровать файл, потому что он заставляет wget застрять в бесконечном цикле, поэтому это не сработает. Mike B 14 лет назад 1
Sounds like your infinite loop is the true issue your trying to deal with. This is different enough that you should probably just post a new question instead asking about preventing infinite loops with wget. Jarvin 14 лет назад 0
You should add a depth limit to wget. This will make sure it isn't an infinite loop. Jarvin 14 лет назад 0