Может ли HTTrack загрузить веб-сайт без индексной страницы или веб-сайт с «изолированными» страницами?

9724
brilliant

Это как HTTrack может загружать только те сайты, которые имеют индексную страницу? И на индексной странице должны быть все ссылки на все остальные страницы сайта, верно? Или, по крайней мере, все страницы на сайте должны быть как-то связаны ссылками, верно? Итак, если есть хотя бы одна страница, на которой нет ни одной ссылки, и на которую не ссылаются никакие другие страницы, то этот тип страниц не будет загружен HTTrack, верно?

Я пытаюсь загрузить веб-сайт на бесплатном хосте (на самом деле это не веб-сайт, а скорее коллекция изображений и некоторые HTML-документы, которые не обязательно связаны друг с другом). Этот веб-сайт будет закрыт через две недели, поэтому мне нужно поторопиться, чтобы загрузить все мои фотографии с этого сайта. Поэтому я попытался HTTrack, пытаясь загрузить весь сайт, но в процессе я получил сообщение, в котором говорилось следующее:

WinHTTrack Сайт Копир

    • ЗЕРКАЛО ОШИБКА! * * HTTrack обнаружил, что текущее зеркало пусто. Если это было обновление, предыдущее зеркало было восстановлено. Причина: не удалось найти первую страницу (страницы) или возникла проблема с подключением. => Убедитесь, что веб-сайт все еще существует, и / или проверьте настройки прокси! <=

Я использую Windows XP.

1

1 ответ на вопрос

2
Snark

You're right that such tools will only work based on links between the pages. If a page has no other pages pointing to it, it's "invisible" for HTTrack (and other "spider" tools). If you know the URLs to this "unlinked" pages, you add them manually.

However, if the webserver has "Directory Browsing" enabled, by pointing to a URL containing a directory and no page name, it will display a list of all files in the directory. But it's seldom activated for security reasons. Most of the times, if no page name is specified, the webserver will serve a default page (index.html, index.php, default.html, ...) instead of the directory content.

Спасибо за ответ на мой вопрос. Теперь еще один вопрос: как насчет изображений? Нужно ли ссылаться на изображение со страницы на веб-сайте или, если оно не связано с другими страницами и не может быть отслежено чернилами на странице индекса, оно также останется невидимым и, следовательно, будет пропущено по HTTrack? brilliant 14 лет назад 0
Это одинаково для всех файлов: изображений, CSS, ZIP-файлов ... Если они не связаны, их невозможно найти. Snark 14 лет назад 0