Извлечь текст из Интернета

Question

Извлечь текст из Интернета

1612

martin.malek 2010-09-29 в 09:24

Я ищу простую пошлину, которая может сканировать сеть, которую я ей даю, и извлекать из нее все текстовые элементы. Было бы хорошо, если бы это было возможно: простой текст, alt и заголовок для изображений, заголовок раздела. Все по отдельности, если это возможно. Выходные данные должны быть доступны для поиска или текстовых файлов (xml) для каждой просканированной страницы. Мне нужен этот текст, чтобы передать их переводчикам.

0

Есть много веб-сканеров. Вот некоторые из них - [opensource] (http://en.wikipedia.org/wiki/Web_crawler#Open-source_crawlers) и [python] (http://stackoverflow.com/questions/419235/anyone-know-of- а-хорошо-питон на основе веб-Сканер-что-я-мог-использование) Praveen 12 лет назад 0

1 ответ на вопрос

2

Accepted Answer · 2010-09-29 09:32:24

Старый добрый Lynx может предоставить вам большинство функций, которые вы запрашивали. Попробуйте lynx -dump http://superuser.com/, например.

Вы также можете использовать wgetдля рекурсивного сканирования нужных вам сайтов, а затем обрабатывать файлы с помощью различных доступных конвертеров, таких как htmltidy .

Извлечь текст из Интернета

1 ответ на вопрос

Похожие вопросы