Как найти страницы, которые ссылаются на конкретную страницу?

1186
Norfeldt

У меня есть следующая страница

http://www.fda.gov/downloads/scienceresearch/fieldscience/laboratorymanual/ucm092156.pdf

Я хотел бы найти страницы на www.fda.gov, которые ссылаются на эту страницу? Как я могу это сделать?

1
Что означают ссылки на эту страницу? Места на сайте FDA, которые указывают на эту конкретную ссылку? Tim G. 7 лет назад 0
Места на сайте FDA, которые указывают на эту конкретную ссылку, да Norfeldt 7 лет назад 0
Возможный дубликат [Поиск страниц на веб-странице, содержащей определенную ссылку] (http://superuser.com/questions/1034567/finding-pages-on-a-webpage-that-contain-a-termin-link) Norfeldt 7 лет назад 2

1 ответ на вопрос

2
MarkoPolo
  1. Вы можете использовать, wgetчтобы рекурсивно загрузить весь сайт:

    wget --recursive --page-requisites --html-extension --no-parent --domains www.fda.gov www.fda.gov

  2. Затем вы можете использовать egrepдля рекурсивного поиска по всем файлам, чтобы найти, какие страницы ссылаются на ucm092156.pdf:

    egrep -r -o '*ucm092156.pdf' www.fda.gov/

У меня есть Mac и Windows .. нет Linux Norfeldt 7 лет назад 0
Используя доморощенный, чтобы получить Wget .. Norfeldt 7 лет назад 0
Обратите внимание, что веб-администраторы могут не порадовать вас очисткой своего сайта, особенно если у вас высокоскоростное соединение. Вполне возможно, что ваш IP-адрес может быть в черном списке. Вы можете также включить флаг --limit-rate`, чтобы уменьшить вероятность этого. Например, `--limit-rate = 100k` снизит скорость загрузки до 100 КБ / с. MarkoPolo 7 лет назад 0
и вы говорите мне это сейчас ... это очищает сайт, как мы говорим Norfeldt 7 лет назад 0
Кстати, я обнаружил, что `grep -rl '* ucm092156.pdf' www.fda.gov /` на Mac делает ту же работу. (все еще ждет завершения загрузки, но пока выглядит хорошо) Norfeldt 7 лет назад 1
Есть ли способ очищать только файлы `.html`? Кажется, все это загружается, включая файлы `.pdf` Norfeldt 7 лет назад 0
Вроде, как бы, что-то вроде. Вы можете принять или отклонить определенные файлы, однако этот процесс происходит после загрузки файла. Например, только для _keep_ файлов htm: `-A '* .htm'` MarkoPolo 7 лет назад 0

Похожие вопросы