Сохранить части сайта как чистый текст

1143
Martin

Я надеюсь, что я могу спросить это здесь.

Мне нужно извлечь содержимое существующего веб-сайта (отвечает за владельца веб-сайта) в документы Word (или текст). Для этого мне нужен только контент из одного DIV с заданным идентификатором.

Есть ли инструмент для Windows, который может сделать это для меня (в идеале рекурсивно)? Я знаю wget и Web Site Downloader, но оба могут «только» сохранить весь HTML.

1

3 ответа на вопрос

1
eleven81

Для этого лучше всего создать свой собственный набор инструментов:

  1. Используйте такой инструмент, как wgetрекурсивная загрузка файлов HTML, из которых требуется контент. Обратите особое внимание на опции, -rчтобы указать рекурсивную загрузку и -lуказать глубину рекурсии. wgetвыводит простой текст.
  2. Используйте такой инструмент, как grepотфильтровать все, кроме строк, содержащих <DIV>нужные вам. Обратите особое внимание на параметры, -rчтобы указать рекурсивный поиск и -eуказать регулярное выражение. Труба grepвыводится в файл по вашему выбору. grepвыводит простой текст, если он подается простым текстом.

Подсказка: может быть проще использовать grepнесколько раз, чтобы отфильтровать вещи небольшими порциями. Это полностью зависит от того, насколько похожи все различные страницы, и насколько чист код.


Изменить: Опять же, возможно, использование регулярных выражений не является хорошим способом для анализа HTML .

** Еще один совет: ** Вы можете рассмотреть ** sed **, если ** grep ** не делает все, что вам нужно. Не все веб-сайты удобно размещают возврат каретки, чтобы поставить каждый DIV в отдельную строку. Chris Nava 14 лет назад 1
Это именно то, чего я хотел избежать. Martin 14 лет назад 0
0
Josh Hunt

Я не думаю, что что-то подобное уже существует. Я думаю, что ваш лучший вариант - написать что-нибудь самостоятельно.

BeautifulSoup - это ... красивая библиотека Python, которая позволит вам сделать это в очень минимальном коде. Для получения дополнительной помощи, я предлагаю вам перейти к переполнению стека

Ну, если бы я сам кодировал, я бы обязательно посмотрел. Спасибо, в любом случае. Martin 14 лет назад 0
0
CarlF

Мне лень. За то время, которое понадобится вам для исследования и настройки специального инструмента, наверняка вы сможете просто выделить необходимый текст мышью, скопировать его и вставить в текстовый редактор?

Это то, что я уже делаю. Но это скучно и подвержено ошибкам. Вот почему я ищу инструмент, чтобы помочь мне. Martin 14 лет назад 0