Как получить все * .html файлы с веб-сайта, используя инструменты командной строки Unix и регулярные выражения

1132

Я хотел бы получить все файлы .html с веб-сайта, на котором есть определенный текст:

например. this_is_good_site.html

Итак, я хотел бы скачать файлы .html со словом «хорошо» в названии. Я попробовал wget и curl, но я не понял, как я могу выбрать эти файлы, используя регулярное выражение? Есть ли решение на Python или Perl, если инструменты командной строки в Unix не могут этого сделать?

1

3 ответа на вопрос

2
Toby Jackson

Поскольку вы используете среду Unix, попробуйте это с помощью параметров рекурсивного принятия / отклонения wget ;

wget -r -A "*good*" <site_to_download> 

Это будет выполнять рекурсивную (-r) загрузку сайта и принимать только (-A) пути, которые соответствуют шаблону ("* good *")

1
Darren Newton

Что ж, если вы хотите сделать это с Python, вы можете использовать urlib2 - вам, вероятно, повезет больше с этим вопросом в StackOverflow.

1
alpha1

Попробуйте копир сайта HTTrack или аналогичную программу, лучше чем командная строка. скачать все это в каталог, отсортировать по .html скопировать и вставить их все в другое место, удалить остатки

http://www.httrack.com/

Похожие вопросы