Извлечь весь текст определенного шрифта из документа MS Word?

1507
Ted Smith

Я преобразовал документ PDF в формат слова. PDF является выпуском журнала. Мне нужен весь текст с определенным шрифтом, а также 9,5 или 10 пунктов. Это содержание статей, на которых я хочу заниматься анализом текста (только частоты слов). Тонны других вещей, которые было бы чрезвычайно утомительно удалять другим способом.

Щелчок правой кнопкой мыши по области текста и выбор «Выбрать текст с похожим форматированием» не работает. (Это то, что я планировал сделать). Выбирает только текущий абзац. Я попытался «выбрать все», а затем установил одинаковое форматирование всех абзацев, но это не имело никакого эффекта.

0

1 ответ на вопрос

2
Tanya

В копии вашего документа (в случае, если вы хотите сохранить весь текст), вы можете удалить весь текст, который не имеет определенного шрифта и размера, выполнив 3 операции поиска и замены (первые два выделят текст, который вы хотите сохранить, третий удалит оставшийся простой текст).

(Примечание: убедитесь, что текстовые поля «Найти что» и «Заменить на» пусты и не содержат пробелов в «Заменить на»)

  1. Найдите весь текст шрифта размером 9,5 и замените его подсветкой (текст будет сохранен, но выделите его последним использованным вами цветом подсветки - вы можете выделить слово в начале, чтобы у вас был выбран цвет). enter image description here
  2. Сделайте то же самое и найдите и замените, но на этот раз замените 10-точечный шрифт на выделение.

Шаги 1 и 2 выше означают, что любой текст, который НЕ соответствует 9,5 или 10 точкам в стиле шрифта, который вы ищете, не будет выделен.

  1. Выполните поиск и замену, где поиск просто не выделен (чтобы выбрать параметр «Не выделять» в качестве параметра «Формат», его нужно выбрать дважды с помощью кнопки «Формат» в левом нижнем углу скриншота).
    enter image description here

Это удалит весь невыделенный текст, оставив только тот текст, который вы хотите сохранить.