Сканирование сайта для файлов

1020
Thomas Moors

Привет! Я хотел бы загрузить все PDF-файлы с http://www.allitebooks.com/ и использовать wget. моя команда, "http://www.allitebooks.com/" -P "C:\dummydir" -c -A pdf -rно я считаю, что пока она не может переходить по ссылкам на поддомен, как я могу это исправить, чтобы она загружала http://file.allitebooks.com/20170105/Internet%20of%20Things%20and%20Big%20Data%20Technologies % 20for% 20Следующий% 20Generation% 20Healthcare.pdf, например.

-1

1 ответ на вопрос

2
stuts

Первоначально я собирался предложить wgetв качестве решения, но после дальнейших исследований я заметил несколько вещей:

Посетив одну из страниц электронных книг на сайте, вы можете увидеть URL-адрес ссылки для скачивания в формате PDF. Это можно использовать для загрузки PDF следующим образом:

wget http://file.allitebooks.com/20170102/Smart%20Home%20Automation%20with%20Linux%20and%20Raspberry%20Pi,%202%20edition.pdf 

Однако это не является рекурсивным, и невозможно узнать, что находится в этом каталоге, не проверяя каждый пост в блоге и не копируя ссылки для скачивания.

но нет ли в мире инструмента, который посещает все ссылки на определенную глубину и загружает все файлы с расширением `.pdf`? Я считаю, что должно быть одно право? Thomas Moors 7 лет назад 0
Определенно есть способы сделать это. Фактически, я написал сообщение в блоге о [Рекурсивная загрузка сайта] (http://stuts.uk/how-to-download-entire-website-with-http-form-based-authentication/). Проблема здесь не в том, что инструмент не существует, а в том, что веб-сайт, с которого вы хотите загрузить PDF-файлы, достаточно безопасен, чтобы предотвратить рекурсивную загрузку сайта. stuts 7 лет назад 0
Хорошо, тогда я напишу свой собственный сканер, если нет готовых инструментов. Я хотел бы заполнить e-reader этими книгами, чтобы иметь некоторую информацию для чтения на ходу. Thomas Moors 7 лет назад 0
HTTrack или ScrapBook могут сделать то, что вы ищете, но на этом конкретном сайте вы не сможете загружать все PDF-файлы неинтерактивно. Я бы посоветовал вам найти несколько электронных книг, которые вы хотели бы прочитать с сайта, и просто загрузить их вручную. Желаем удачи в вашей программе на гусеничном шасси :) Если вы нашли, что мой ответ помог найти какое-то решение, пожалуйста, не забудьте принять его как решение! stuts 7 лет назад 0
Йо торопится, я проголосовал за это, но это не ответ, который помогает достичь моей цели, так что не принимай человека Thomas Moors 7 лет назад 0
Это совершенно понятно, чувак. Все еще пытаюсь разобраться с автоответчиком! stuts 7 лет назад 0

Похожие вопросы