Вы можете использовать,
wget
чтобы рекурсивно загрузить весь сайт:wget --recursive --page-requisites --html-extension --no-parent --domains www.fda.gov www.fda.gov
Затем вы можете использовать
egrep
для рекурсивного поиска по всем файлам, чтобы найти, какие страницы ссылаются на ucm092156.pdf:egrep -r -o '*ucm092156.pdf' www.fda.gov/
Как найти страницы, которые ссылаются на конкретную страницу?
1186
Norfeldt
У меня есть следующая страница
http://www.fda.gov/downloads/scienceresearch/fieldscience/laboratorymanual/ucm092156.pdf
Я хотел бы найти страницы на www.fda.gov, которые ссылаются на эту страницу? Как я могу это сделать?
Что означают ссылки на эту страницу? Места на сайте FDA, которые указывают на эту конкретную ссылку?
Tim G. 7 лет назад
0
Места на сайте FDA, которые указывают на эту конкретную ссылку, да
Norfeldt 7 лет назад
0
Возможный дубликат [Поиск страниц на веб-странице, содержащей определенную ссылку] (http://superuser.com/questions/1034567/finding-pages-on-a-webpage-that-contain-a-termin-link)
Norfeldt 7 лет назад
2
1 ответ на вопрос
2
MarkoPolo
У меня есть Mac и Windows .. нет Linux
Norfeldt 7 лет назад
0
Используя доморощенный, чтобы получить Wget ..
Norfeldt 7 лет назад
0
Обратите внимание, что веб-администраторы могут не порадовать вас очисткой своего сайта, особенно если у вас высокоскоростное соединение. Вполне возможно, что ваш IP-адрес может быть в черном списке. Вы можете также включить флаг --limit-rate`, чтобы уменьшить вероятность этого. Например, `--limit-rate = 100k` снизит скорость загрузки до 100 КБ / с.
MarkoPolo 7 лет назад
0
и вы говорите мне это сейчас ... это очищает сайт, как мы говорим
Norfeldt 7 лет назад
0
Кстати, я обнаружил, что `grep -rl '* ucm092156.pdf' www.fda.gov /` на Mac делает ту же работу. (все еще ждет завершения загрузки, но пока выглядит хорошо)
Norfeldt 7 лет назад
1
Есть ли способ очищать только файлы `.html`? Кажется, все это загружается, включая файлы `.pdf`
Norfeldt 7 лет назад
0
Вроде, как бы, что-то вроде. Вы можете принять или отклонить определенные файлы, однако этот процесс происходит после загрузки файла. Например, только для _keep_ файлов htm: `-A '* .htm'`
MarkoPolo 7 лет назад
0
Похожие вопросы
-
3
Есть ли в Chrome что-то похожее на ключевые слова для поиска в Opera?
-
5
Окно поиска в Chrome
-
9
Можно ли с помощью поиска Google заблокировать все результаты в домене?
-
-
6
В Vista Explorer, как я могу найти слово во всех файлах каталога?
-
11
Как добавить пользовательскую поисковую систему в Firefox?
-
2
Windows Search 4.0 заменяет диалоговое окно поиска файлов Explorer. Как вернуть его обратно?
-
7
Глупый полнотекстовый поиск?
-
7
Бережливый и средний поиск файлов в Windows
-
4
Google слишком медленно загружается
-
3
Mac: Как можно Adium переиндексировать журналы чата для поиска в окне просмотра транскриптов чата?