Как я могу очистить только данные слова с веб-сайта?

1031
Staskata

Я хочу скачать все содержание слова с определенного сайта. Сохраните результаты в MS Word, Excel или Notepad и проверьте, какие слова повторяются чаще всего и сколько раз.

-3
Что вы уже сделали? Karan 9 лет назад 0

2 ответа на вопрос

0
Tom Newton

Это может быть сложно - так как вам нужно скачать HTML, чтобы добраться до всего остального. К счастью, проблема уже решена. Используйте Wget. Скачать (включая бинарные файлы Windows) здесь и руководство здесь

Я дал вам ручную привязку для опции «--accept», которая ограничивает типы сохраняемых файлов. Вам нужно будет смешать его с --mirror и, возможно, с некоторыми из параметров максимальной глубины. Ищите «span hosts», если вы получаете меньше информации, чем вам нужно.

Я думаю, что это отвечает на поставленный вопрос - если вам нужна помощь в подсчете слов (или программном преобразовании слова / Excel в текст), это, вероятно, новый вопрос.

Я думаю, что вы упускаете суть вопроса OP: как получить * только слова *, а не теги HTML и тому подобное, из исходного кода. Zero3 9 лет назад 0
Возможно, да, упоминание слова могло быть красной сельдью! Tom Newton 9 лет назад 0
0
Magister Ludi

Вы можете использовать powershell для загрузки файла, а затем использовать HTML-анализатор для извлечения текста. Команда powershell для загрузки веб-страницы:

Invoke-WebRequest https://google.com -OutFile C:/Users/JohnDoe/Desktop/google.html 

Это сохранит html-файл с именем "google.html" на вашем рабочем столе (если вы измените JohnDoe на свой идентификатор Windows). Тогда вы можете использовать HTML-парсер на нем. Вот ссылка на сравнение html-анализаторов в Википедии: http://en.wikipedia.org/wiki/Comparison_of_HTML_parsers