Скачать несколько HTML-страниц из текстового файла

371
Rafael

У меня есть текстовый файл с несколькими ссылками. Мне нужно получить доступ к каждой ссылке в этом тексте и загрузить / сохранить каждую страницу. Для доступа к каждой странице требуются логин и пароль. Как я могу сделать это с помощью терминала linux / shell script / python? Может ли рысь помочь?

1
[man wget] (https://www.gnu.org/software/wget/manual/wget.html). Вы также можете использовать способы [пройти аутентификацию] в Google (https://stackoverflow.com/questions/4272770/ Wget-с-аутентификации) nnovich-OK 7 лет назад 1
Вы хотите, чтобы вас попросили ввести имена пользователей и пароли, или вы хотите сохранить их в другом файле, который будет прочитан скриптом, загружающим страницы? Требуется ли для каждой страницы отдельное имя пользователя и пароль или одни и те же имя пользователя и пароль используются для всех страниц? Каждая строка в текстовом файле содержит только ссылку без другого текста, или вам нужно искать текстовый документ, в котором есть ссылки, перемежающиеся с другим текстом? moonpoint 7 лет назад 0
Уважаемый @moonpoint, спасибо. Я хочу сохранить их в другом файле, который будет читать скрипт, который загружает страницы, и каждая строка в текстовом файле содержит только ссылку с другим текстом. ||| Сайт не позволяет вам скачать ссылку , но когда я нахожусь на странице и дать Ctrl + S или Ctrl + P, чтобы загрузить или распечатать (pdf) страницу. Поэтому я решил использовать lynx для входа на страницу и сохранения каждой ссылки в текстовом файле. Как вы думаете, это возможно? У вас есть идеи получше? Rafael 7 лет назад 0
Уважаемый @ nnovich-ОК, спасибо, но я уже пробовал это. Сайт не позволяет скачивать wget с "--user and --password" или "--user --password --auth-no-challenge" Rafael 7 лет назад 0

0 ответов на вопрос

Похожие вопросы