Это может быть сложно - так как вам нужно скачать HTML, чтобы добраться до всего остального. К счастью, проблема уже решена. Используйте Wget. Скачать (включая бинарные файлы Windows) здесь и руководство здесь
Я дал вам ручную привязку для опции «--accept», которая ограничивает типы сохраняемых файлов. Вам нужно будет смешать его с --mirror и, возможно, с некоторыми из параметров максимальной глубины. Ищите «span hosts», если вы получаете меньше информации, чем вам нужно.
Я думаю, что это отвечает на поставленный вопрос - если вам нужна помощь в подсчете слов (или программном преобразовании слова / Excel в текст), это, вероятно, новый вопрос.