Вы пытались написать это с помощью wget и cron? Посмотрите на --spider
флаг Wget . Похоже, это все, что вам нужно, кроме cron, чтобы запускать его время от времени.
Загрузка / обновление веб-страниц, перечисленных в карте сайта XML
Я ищу инструмент FLOSS, который загружает все страницы (и встроенные ресурсы, например изображения), связанные в карте сайта XML (созданной в соответствии с http://www.sitemaps.org/ ).
Инструмент должен регулярно сканировать карту сайта и искать новые и удаленные URL-адреса и изменения в lastmod
элементе. Таким образом, всякий раз, когда страница добавляется / удаляется / обновляется, инструмент должен применить изменения.
Некоторые файлы Sitemap отображают вложенные карты сайта в sitemapindex
→ sitemap
. Инструмент должен понимать это и загружать все связанные вложенные карты сайта и искать там URL-адреса.
Я знаю, что есть инструменты, которые позволяют мне извлекать все URL-адреса из карты сайта, чтобы я мог передавать их в wget или аналогичные инструменты (см., Например: Извлечение ссылок из карты сайта (xml) ). Но это не поможет получить уведомление об обновлениях страниц. Отслеживание самих веб-страниц на наличие обновлений не работает, поскольку «вторичный» контент на страницах меняется ежедневно, но lastmod
обновляется только при изменении соответствующего контента.
1 ответ на вопрос
Похожие вопросы
-
8
Отображение XML в браузере Chrome
-
3
IE на Windows 7 не сохраняет файлы на диск
-
3
Завершение работы компьютера после завершения загрузки / выгрузки
-
-
4
Где скачать много цифр пи?
-
4
Настройка модема для загрузки Bittorrent
-
3
Firefox: Почему это медленно, если у меня есть активные загрузки?
-
2
Звоните, но не загружайте страницу с помощью wget
-
17
Как скачать URL в виде файла?
-
2
Неограниченная подкаталог в robots.txt
-
19
Как я могу скачать весь сайт?