Я делаю это прямо сейчас. Вот команда, которую я использую:
wget -k -m -E -p -np -R memberlist.php*,faq.php*,viewtopic.php*p=*,posting.php*,search.php*,ucp.php*,viewonline.php*,*sid*,*view=print*,*start=0* -o log.txt http://www.example.com/forum/
Я хотел избавиться от этих надоедливых сессионных идентификаторов (sid = blahblahblah). Кажется, они автоматически добавляются страницей индекса, а затем прикрепляются ко всем ссылкам вирусоподобным образом. За исключением одного белка где-то в стороне - который ссылается на обычный index.php, который затем продолжается без параметра sid =. (Возможно, есть способ заставить рекурсивный wget запускаться из index.php - я не знаю).
Я также исключил некоторые другие страницы, которые приводят к спасению большого количества хлама. В частности, memberlist.php и viewtopic.php, где указано p =, могут создавать тысячи файлов!
Из-за этой ошибки в wget http://savannah.gnu.org/bugs/?20808 он по-прежнему будет загружать поразительное количество этих бесполезных файлов, особенно viewtopic.php? P =, прежде чем просто удалить их. Так что это сожжет много времени и пропускной способности.