Как получить все * .html файлы с веб-сайта, используя инструменты командной строки Unix и регулярные выражения

Question

Как получить все * .html файлы с веб-сайта, используя инструменты командной строки Unix и регулярные выражения

1189

2010-01-18 в 19:48

Я хотел бы получить все файлы .html с веб-сайта, на котором есть определенный текст:

например. this_is_good_site.html

Итак, я хотел бы скачать файлы .html со словом «хорошо» в названии. Я попробовал wget и curl, но я не понял, как я могу выбрать эти файлы, используя регулярное выражение? Есть ли решение на Python или Perl, если инструменты командной строки в Unix не могут этого сделать?

1

3 ответа на вопрос

2

1

Darren Newton 2010-01-19 в 02:53

Что ж, если вы хотите сделать это с Python, вы можете использовать urlib2 - вам, вероятно, повезет больше с этим вопросом в StackOverflow.

1

alpha1 2010-01-19 в 03:00

Попробуйте копир сайта HTTrack или аналогичную программу, лучше чем командная строка. скачать все это в каталог, отсортировать по .html скопировать и вставить их все в другое место, удалить остатки

http://www.httrack.com/

Accepted Answer · 2012-10-13 18:27:11

Поскольку вы используете среду Unix, попробуйте это с помощью параметров рекурсивного принятия / отклонения wget ;

wget -r -A "*good*" <site_to_download>

Это будет выполнять рекурсивную (-r) загрузку сайта и принимать только (-A) пути, которые соответствуют шаблону ("* good *")

Как получить все * .html файлы с веб-сайта, используя инструменты командной строки Unix и регулярные выражения

3 ответа на вопрос

Похожие вопросы