Как найти и скопировать все строки, начинающиеся с ("http: // www.") На определенном веб-сайте (1000 страниц)?
517
M Singh
Я ищу ссылки (не URL-адреса страниц), написанные в объявлениях о работе на определенном веб-сайте. Я хотел бы отсканировать веб-сайт и скопировать все строки, начинающиеся с http или www, на ВСЕХ страницах (около 1000)
Я нахожусь на Windows 7. Я не знаю, как запускать сценарии. Кто-нибудь может предложить эффективный способ сделать это?
Должен ли я сначала загрузить все HTML-страницы? Если так, то какое программное обеспечение я должен использовать для загрузки, сканирования и копирования строки?
Вам необходимо предоставить пример URL страницы. Например, это может быть `http: //example.com/list.php? Page = n`, где n - номер страницы. Другая возможность - http: // example.com / pagen.html, опять же, где n - номер страницы. Возможно также, что есть центральный список всех страниц, но URL-адреса отдельных страниц не имеют номеров. В этом случае сценарий может получить все URL-адреса для тестирования с главной страницы, или вам может потребоваться вручную указать каждый URL-адрес. Такая информация необходима.
Bob 12 лет назад
0
сайт: www.sarkari-naukri.in; Теперь мне нужно скопировать все ссылки, упомянутые в сообщениях на всех страницах.
M Singh 12 лет назад
0
3 ответа на вопрос
2
Valentin
Если учесть, что запуск сценариев для вас не вариант, вы можете воспользоваться подходом для загрузки исходного кода страницы (щелкните правой кнопкой мыши -> загрузить исходный код). Затем вы можете открыть его с помощью, например, блокнота и искать содержимое, нажав [Ctrl] + [F].
Спасибо за ответ Валентин, но я должен сканировать весь сайт, и он содержит около 1000 страниц. поэтому опция исходного кода отсутствует. теперь urlstringgrabber также сканирует только открытую страницу. Открытие 1000 страниц одна за другой займет много времени. какие-нибудь другие варианты?
M Singh 12 лет назад
0
Я бы искал в Интернете достойный инструмент. Если вам нравится, используйте поисковый термин «сканировать сайт на наличие ссылок» в Google. Это должно дать вам желаемые результаты.
Valentin 12 лет назад
0
Создайте карту сайта http://www.xml-sitemaps.com и проанализируйте выходной файл xml
integratorIT 12 лет назад
0
1
integratorIT
Вы можете легко добиться этого в Opera, просто откройте левую панель - Ссылки, и вы можете скопировать их все в буфер обмена.
Привет Пингер, это для страницы, которая в данный момент открыта? Мне нужно отсканировать весь сайт с около 1000 страниц.
M Singh 12 лет назад
0
0
wizzwizz4
Я считаю, что программа WinHTTrack будет полезна для этой цели. Существует комбинация опций, которые позволяют вам загрузить одну страницу, но изменить URL-адреса на определенный, абсолютный формат, чтобы впоследствии вы могли осуществлять поиск в необработанном HTML-коде и получать гарантии практически по всем ссылкам.
После задания имени зеркала и перехода к следующему экрану измените действие на «Загрузить веб-сайты».
Укажите URL-адрес страницы, содержащей дополнительные веб-страницы, в поле «Веб-адреса: (URL)».
Выберите Параметры -> Только эксперты
Измените «Перезаписать ссылки: внутренние / внешние» на «Абсолютный URI / Абсолютный URL» (или, если вы используете страницу только для очистки URL-адресов, «Абсолютный URL / Абсолютный URL»).
Нажмите ОК, затем Далее, затем, как обычно, перемещайтесь по опциям.
Более подробную информацию о HTTrack можно найти в теге httrack .