Перечислите все ссылки одного сайта на другой сайт

477
Jeegar Patel

Есть два сайта.

1) www.aa.com 2) www.bb.com 

Сейчас на bb.com так много ссылок на aa.com и его веб-страницы, как

aa.com/blhahhaa.html aa.com/beautifulday.html aa.com 

так что я хочу узнать этот список.

Так есть ли сценарии или инструменты для этого? Есть идеи, как разработать такой инструмент?

Это то, как Google сканирует все веб-сайты, но здесь я хочу сканировать только один веб-сайт.

-1
Вопросы по продукту не по теме. Это также читается так, как будто вы не проводили никаких исследований. Да, это возможно, но вам, вероятно, придется выучить язык, если вы не найдете сценарий (я часто пишу эти приложения в .NET) Dave 9 лет назад 1

1 ответ на вопрос

2
Szymon Toda

Если вы работаете в Linux, я бы использовал страницу чтения Bash-скрипта с wget и анализировал ее, ища ссылки, а затем сканировал эти ссылки. Используйте Google для этого, есть множество готовых скриптов.

Если бы в Windows я использовал ваш любой предпочтительный язык с расширением cURL, чтобы получить содержимое страницы вместо wget. Если вы читаете вики-страницу, это страница «Смотри также», даже если она направлена ​​на wget. Копай на этом.

PS Ваш вопрос кажется немного ленивым.