Удаление и переформатирование определенных тегов HTML из содержимого

284
Emilie

В настоящее время я работаю над исследованием контента Stack Exchange и пытаюсь найти эффективный способ перенести контент в мою CAQDAS. Я использую CAQDAS - это DeDoose.

Моя проблема в том, что поддержка HTML довольно скудная, она не поддерживает форматирование, поэтому это беспорядок. Я пробовал различные варианты, такие как Печать в формате PDF (но поддержка PDF тоже довольно плохая). Поэтому я хочу превратить его в форматированный текст.

У меня есть тысячи страниц для лечения. Я проверил расширение Chrome под названием ReaderView. Это делает довольно хорошую работу, но удаляет некоторые вещи, которые мне нужны, такие как форматирование и пользовательская информация. В настоящее время лучшим вариантом, который я могу придумать своими навыками, является копирование HTML-кода каждой страницы в InDesign и создание сценария с использованием GREP, чтобы избавиться от ненужных мне вещей.

Моим приложением мечты был бы редактор HTML, где я мог бы просто снять все ненужные элементы HTML / CSS и экспортировать их как RTF или что-то в этом роде ...

Кто-нибудь из вас знает лучший способ сделать это?

Это выглядит как хороший пример, но я совсем не разбираюсь в Python ...

0

1 ответ на вопрос

1
Emilie

Ну, в конце концов, я решил свой ответ, хотя этот вопрос действительно принес мне значок «галоп» ... не уверен, что это хорошо!

Мне удалось получить то, что я хотел, используя Selenium API, извлекая и анализируя различные селекторы в HTML / текст, в зависимости от того, что мне нужно.

Похожие вопросы