Httrack фильтр ссылок с определенным шаблоном

1067
user1812076

Я пытаюсь использовать httrack для загрузки всего веб-архива с archive.org. Идея состоит в том, чтобы загрузить только ссылки на архив (как можно больше), но только те ссылки, которые действительно из архива, а не с текущего веб-сайта. Другими словами, я хочу скачать только ссылки, содержащие этот шаблон:

/web/[archive_timestamp]/[website]/* 

Вот пример

Вот ссылка на архив: http://web.archive.org/web/20011209181356/http://www.emag.ro:80/

В других, чтобы загрузить ссылки, которые мне нужны, я использую эту команду:

httrack http://web.archive.org/web/20011209181356/http://www.emag.ro:80/ -* +*/web/20011209181356/http://www.emag.ro/* 

Это должно означать, что нужно отфильтровать все ссылки (отключить все) и включить только те, которые содержат / web / 20011209181356 / http://www.emag.ro/

Команда загружает только домашнюю страницу, так что, думаю, я что-то не так делаю.

Если у кого-то есть представление о том, как это сделать (кроме создания собственного скребка, - попытайтесь избежать этого, чтобы сэкономить время), даже с помощью другого инструмента, который я могу использовать из командной строки, и который также работает в Windows.

0

1 ответ на вопрос

1
Brett

Вы были очень близки - вам нужно было только добавить доменное имя к вашему правилу сканирования следующим образом:

httrack http://web.archive.org/web/20011209181356/http://www.emag.ro:80/ -* +web.archive.org/web/20011209181356/http://www.emag.ro/* 

Или, чтобы получить все архивные версии этого домена, вы можете использовать:

httrack http://web.archive.org/web/20011209181356/http://www.emag.ro:80/ -* +web.archive.org/web/*/http://www.emag.ro/* 

Но тогда вы захотите включить обход по всему домену, используя эти параметры командной строки (или устанавливая их в графическом интерфейсе в разделе «Только для экспертов»)

B ... может перемещаться вверх и вниз по структуре каталогов
d ... но оставаться в том же главном домене

Смотрите скриншот ниже. Это то, что вы хотели достичь?

Загруженные страницы

Похожие вопросы