Как получить все * .html файлы с веб-сайта, используя инструменты командной строки Unix и регулярные выражения
1189
Я хотел бы получить все файлы .html с веб-сайта, на котором есть определенный текст:
например. this_is_good_site.html
Итак, я хотел бы скачать файлы .html со словом «хорошо» в названии. Я попробовал wget и curl, но я не понял, как я могу выбрать эти файлы, используя регулярное выражение? Есть ли решение на Python или Perl, если инструменты командной строки в Unix не могут этого сделать?
Это будет выполнять рекурсивную (-r) загрузку сайта и принимать только (-A) пути, которые соответствуют шаблону ("* good *")
1
Darren Newton
Что ж, если вы хотите сделать это с Python, вы можете использовать urlib2 - вам, вероятно, повезет больше с этим вопросом в StackOverflow.
1
alpha1
Попробуйте копир сайта HTTrack или аналогичную программу, лучше чем командная строка. скачать все это в каталог, отсортировать по .html скопировать и вставить их все в другое место, удалить остатки