Для этого лучше всего создать свой собственный набор инструментов:
- Используйте такой инструмент, как
wget
рекурсивная загрузка файлов HTML, из которых требуется контент. Обратите особое внимание на опции,-r
чтобы указать рекурсивную загрузку и-l
указать глубину рекурсии.wget
выводит простой текст. - Используйте такой инструмент, как
grep
отфильтровать все, кроме строк, содержащих<DIV>
нужные вам. Обратите особое внимание на параметры,-r
чтобы указать рекурсивный поиск и-e
указать регулярное выражение. Трубаgrep
выводится в файл по вашему выбору.grep
выводит простой текст, если он подается простым текстом.
Подсказка: может быть проще использовать grep
несколько раз, чтобы отфильтровать вещи небольшими порциями. Это полностью зависит от того, насколько похожи все различные страницы, и насколько чист код.
Изменить: Опять же, возможно, использование регулярных выражений не является хорошим способом для анализа HTML .