Как извлечь текст с сайтов
778
Woz
Я ищу способ автоматизировать извлечение текста из нескольких веб-сайтов в текстовый документ. При вставке в слово doc мне нужно его вставить, используя «форматирование слиянием». Вот как я хотел бы, чтобы извлеченный текст заканчивался после его вставки в слово doc - Пример
Мне нужен текстовый экстрактор только для извлечения текста, начиная с заголовка главы «Книга 1, Глава 1 - Раннее утро в городке» до конца главы, где написано «предыдущая глава», но не включая «предыдущую главу». Затем мне нужно, чтобы он перешел к следующей главе, пока не достигнет конца Книги 21, Глава 44.
Спиральный дракон: Книга 1 - Глава 1, идущая до Спирального Дракона: Книга 21 - Глава 44
веб-сайты текстовые (разметка), поэтому вы будете искать парсер. для простого HTML-сайта можно использовать общий синтаксический анализатор XML для извлечения тел элементов, но вам придется написать код сценария для обработки накопления, фильтрации, копирования и вставки текста. для более сложных сайтов, которые генерируют динамический контент на стороне сервера или в клиентских скриптах, вам может показаться, что это немного сложнее. Удачи.
Frank Thomas 8 лет назад
0
Какой код у тебя так далеко?
Burgi 8 лет назад
0
В настоящее время у меня нет никакого кода, написанного для этого, честно говоря, я даже не уверен, как написать код для скриптов. У кого-нибудь есть предложения по анализатору XML?
Woz 8 лет назад
0
@ Wozzie Честно говоря, вы можете сделать это в слове довольно легко с помощью VBA.
BigElittles 7 лет назад
0
0 ответов на вопрос
Похожие вопросы
-
6
Насколько хороша защита паролем Word?
-
4
Вставить Flash видео в документ MS Word (2003 или 2007)
-
1
Как сделать так, чтобы меню по умолчанию открывалось «полностью» в MS Word 2003?
-
-
1
Office 2007 - ссылки на источники в Word
-
6
Есть ли сочетание клавиш для выделения выделенного текста в MS Word 2007?
-
2
Word 2007 не открывает старые файлы
-
3
Минимизируйте размер файла документов Microsoft Word
-
6
Рекомендация для простого (японского) текстового процессора
-
1
Используя OpenOffice.org, есть ли способ напечатать не только контент, но и комментарии к документу?
-
7
одновременное совместное использование текстовых документов