Я полагаю, я мог бы использовать wget, но затем он пытается получить все ссылки и HTML-файл. Есть ли лучший инструмент для достижения этой цели?
просто чтобы уточнить ваш вопрос: вы просто хотите список файлов, которые можно загрузить с сервера, а не сами файлы (пока)?
akira 15 лет назад
0
Каким образом команда типа `wget --no-verbose --spider --no-directoryies --recursive --level = 2 http: // www.apache.org / dist / httpd / binaries /` не работает для ты? Если бы вы могли быть более конкретными, это может помочь
DaveParillo 15 лет назад
0
3 ответа на вопрос
12
John T
Вы можете указать, какие расширения файлов wgetбудут загружаться при сканировании страниц:
wget -r -A zip,rpm,tar.gz www.site.com/startpage.html
это будет выполнять рекурсивный поиск и загружать только файлы с .zip, .rpmи .tar.gzрасширений.
7
akira
Предположим, вы действительно хотите получить список файлов на сервере, не загружая их (пока):
wget: Simple Command to make CURL request and download remote files to our local machine.
--execute="robots = off": This will ignore robots.txt file while crawling through pages. It is helpful if you're not getting all of the files.
--mirror: This option will basically mirror the directory structure for the given URL. It's a shortcut for -N -r -l inf --no-remove-listing which means:
-N: don't re-retrieve files unless newer than local
-r: specify recursive download
-l inf: maximum recursion depth (inf or 0 for infinite)