Пакетная загрузка страниц из вики без специальных страниц

1427
Boldewyn

Время от времени я нахожу в Интернете некоторую документацию, которая мне нужна для автономного использования на ноутбуке. Обычно я запускаю wget и получаю весь сайт.

Однако многие проекты теперь переходят на вики, и это означает, что я также загружаю каждую версию и каждую ссылку "отредактируй меня".

Есть ли какой-либо инструмент или какая-либо конфигурация в wget, чтобы я, например, загружал только файлы без строки запроса или с определенным регулярным выражением?

Ура,

Кстати, в wget есть очень полезный ключ -k, который преобразует любые ссылки внутри сайта в своих локальных аналогов. Это было бы еще одно требование. Пример: загрузка страниц http://example.com . Затем все ссылки на "/ ..." или " http://example.com/ ..." должны быть преобразованы в соответствии с загруженным аналогом.

2

2 ответа на вопрос

1
CarlF

Со страницы руководства wget:

-R rejlist --reject rejlist

Укажите разделенные запятыми списки суффиксов или шаблонов имен файлов для принятия или отклонения. Обратите внимание, что если какой-либо из подстановочных знаков *,?, [Или] появится в элементе acclist или rejlist, он будет рассматриваться как шаблон, а не как суффикс.

Кажется, это именно то, что вам нужно.

Примечание: чтобы уменьшить нагрузку на вики-сервер, вы можете посмотреть флаги -w и --random-wait.

Круто, я просто не видел эту опцию. Благодарю. Boldewyn 15 лет назад 0
0
user10547

Большинство из них недовольны этим, и Википедия активно закрывает их с помощью robots.txt. Я хотел бы придерживаться http://en.wikipedia.org/wiki/Special:Export

Я знаю, что это довольно напряженно для сервера, но это одна из причин, по которой я хочу скачивать только необходимые файлы. Во всяком случае, некоторые проекты просто не доставляют свои страницы в другом формате, чем вики-страницы. Boldewyn 15 лет назад 0

Похожие вопросы