Извлечь текст из Интернета

1575
martin.malek

Я ищу простую пошлину, которая может сканировать сеть, которую я ей даю, и извлекать из нее все текстовые элементы. Было бы хорошо, если бы это было возможно: простой текст, alt и заголовок для изображений, заголовок раздела. Все по отдельности, если это возможно. Выходные данные должны быть доступны для поиска или текстовых файлов (xml) для каждой просканированной страницы. Мне нужен этот текст, чтобы передать их переводчикам.

0
Есть много веб-сканеров. Вот некоторые из них - [opensource] (http://en.wikipedia.org/wiki/Web_crawler#Open-source_crawlers) и [python] (http://stackoverflow.com/questions/419235/anyone-know-of- а-хорошо-питон на основе веб-Сканер-что-я-мог-использование) Praveen 11 лет назад 0

1 ответ на вопрос

2
Janne Pikkarainen

Старый добрый Lynx может предоставить вам большинство функций, которые вы запрашивали. Попробуйте lynx -dump http://superuser.com/, например.

Вы также можете использовать wgetдля рекурсивного сканирования нужных вам сайтов, а затем обрабатывать файлы с помощью различных доступных конвертеров, таких как htmltidy .

Похожие вопросы