Как извлечь текст с сайтов

778
Woz

Я ищу способ автоматизировать извлечение текста из нескольких веб-сайтов в текстовый документ. При вставке в слово doc мне нужно его вставить, используя «форматирование слиянием». Вот как я хотел бы, чтобы извлеченный текст заканчивался после его вставки в слово doc - Пример

Мне нужен текстовый экстрактор только для извлечения текста, начиная с заголовка главы «Книга 1, Глава 1 - Раннее утро в городке» до конца главы, где написано «предыдущая глава», но не включая «предыдущую главу». Затем мне нужно, чтобы он перешел к следующей главе, пока не достигнет конца Книги 21, Глава 44.

Спиральный дракон: Книга 1 - Глава 1, идущая до Спирального Дракона: Книга 21 - Глава 44

1
веб-сайты текстовые (разметка), поэтому вы будете искать парсер. для простого HTML-сайта можно использовать общий синтаксический анализатор XML для извлечения тел элементов, но вам придется написать код сценария для обработки накопления, фильтрации, копирования и вставки текста. для более сложных сайтов, которые генерируют динамический контент на стороне сервера или в клиентских скриптах, вам может показаться, что это немного сложнее. Удачи. Frank Thomas 8 лет назад 0
Какой код у тебя так далеко? Burgi 8 лет назад 0
В настоящее время у меня нет никакого кода, написанного для этого, честно говоря, я даже не уверен, как написать код для скриптов. У кого-нибудь есть предложения по анализатору XML? Woz 8 лет назад 0
@ Wozzie Честно говоря, вы можете сделать это в слове довольно легко с помощью VBA. BigElittles 7 лет назад 0

0 ответов на вопрос

Похожие вопросы