Spider / сканировать веб-сайт и получить каждый URL и заголовок страницы в файле CSV

1287
Tyler Clendenin

Я перехожу со старого сайта корзины покупок ASP на сайт Drupal / Ubercart. Частью этого шага является обеспечение того, что старые ссылки будут перенаправлены на новые. Для этого все, что мне нужно, это какой-то способ получить список всех ссылок со старого сайта.

Предпочтительно, чтобы результаты имели заголовок страницы, и в идеале я мог бы дать ему какой-то способ вернуть другие данные со страницы (например, селектор CSS).

Я бы предпочел, чтобы это было в OS X, но я тоже могу использовать приложения для Windows.

Я попробовал целостность, но ее вывод почти невозможно расшифровать, плюс он, кажется, не работает хорошо.

1
R, может справиться с этим. Но я не уверен, как это сделать для всего сайта. Вот пример разбора одной страницы: http://stackoverflow.com/questions/3746256/extract-links-from-webpage-using-r Brandon Bertelsen 11 лет назад 0

1 ответ на вопрос

0
RedGrittyBrick

Если вы не против написания скриптов на Perl ...

Этот модуль реализует настраиваемый механизм веб-обхода для робота или другого веб-агента. Получив начальную веб-страницу (URL), робот получит содержимое этой страницы и извлечет все ссылки на странице, добавив их в список URL-адресов для посещения.

Я ужасен с Perl, и я не могу понять, как установить модуль из CPAN = p Tyler Clendenin 11 лет назад 0

Похожие вопросы