Есть ли программное обеспечение, которое выполняет текстовый анализ в блогах?

974
Brian Bauman

Моя компания стремится создать PivotViewer для визуализации клиентских сообщений в блоге Wordpress 2 за последние 11 лет. Однако для этого нам нужно отредактировать несколько случайных, неполных и, как правило, плохих тегов для использования в качестве сортируемых категорий. Я ищу инструмент, который будет анализировать их записи в блоге и выполнять подсчет слов, чтобы дать нам представление о том, с чем мы имеем дело.

В идеале, он будет иметь все эти функции:

  1. Черный список слов (игнорировать)
  2. Слово stemming
  3. Пользовательский синоним слияния
  4. Подсчет всех использований
  5. Подсчет количества постов, в которых появляется слово.

Я бы подумал, что такого рода текстовый анализ будет чрезвычайно распространен, но я не смог найти ни одного программного обеспечения, которое бы делало подобные вещи во всех блогах. Есть ли программное обеспечение для этого?

8
Интересно. Если сомневаешься, у Питона твоя спина. James T Snell 13 лет назад 3
Да ... Я правда надеюсь, что мне не придется на этом кататься. Brian Bauman 13 лет назад 0
there is something that does this... I remember a friend analyzed wikipedia... I will check with him tomorrow Keltari 13 лет назад 0

6 ответов на вопрос

3
harrymc

Программное обеспечение, которое вы ищете, может иметь много названий, таких как «Анализ содержимого», «Облако тегов» или «Метатеги» и многие другие, такие как «анализ текста» и «Анализ текста».

Для этих целей существует очень много программных инструментов, как бесплатных, так и коммерческих.

У меня нет личного опыта работы с такими инструментами, но хорошее место для начала - инструменты анализа текста, в которых перечислены десятки таких инструментов, как бесплатных, так и коммерческих.

Другим таким списком является программное обеспечение для анализа текста, интеллектуального анализа текста и поиска информации .

I filtered my way through the first list, but none of the free options include much more than linguistic analysis. Haven't looked through the second list yet - I may end up rolling my own. Brian Bauman 13 лет назад 0
2
suweller

Взгляните на Rapidminer или Weka

Видя, что это блог клиентов, у вас, вероятно, есть доступ к базе данных. Загрузите все статьи в виде открытого текста и используйте одну из вышеперечисленных программ для решения вопросов обработки естественного языка (1, 2, 3 и 5).

Количество применений трудно по-настоящему автоматизировать, поскольку оно связано с автоматическим определением значения слов с использованием контекста.

Подсчет всех применений, а не пользователей. Спасибо за предложения, хотя. Brian Bauman 13 лет назад 0
Я неправильно понял, mybad. Тем не менее вы должны проверить Rapidminer или Weka для обработки естественного языка. То есть, если набор данных не огромен, потому что оба пытаются поместить его в память suweller 13 лет назад 0
2
Laurence

one of the most content analysis software is WordStat designed by Provalis Research

WordStat is a text analysis module for QDA Miner or SimStat. WordStat combines content analysis method by using dictionary approach and many algorithms exploration or various text mining methods. WordStat can apply existing categorization dictionaries to a new text corpus. It also may be used in the development and validation of new categorization dictionaries. When used in conjunction with manual coding, this module can provide assistance for a more systematic application of coding rules, help uncover differences in word usage between subgroups of individuals and assist in the revision of existing coding using KWIC (Keyword In Context) tables. WordStat is specifically designed to study textual information such as responses to open-ended questions, interviews, titles, journal articles, public speeches, electronic communications, etc.

http://provalisresearch.com/products/content-analysis-software/

1
gdelfino

Вы можете попробовать Mathematica Вольфрама попробовать. Вам придется немного программировать, но все необходимые инструменты есть:

0
Jürgen Strobel

На некоторые из этих вопросов можно было бы быстро и грязно ответить с помощью поиска Google в своем блоге (проще всего, если у него есть собственный домен).

0
music2myear

Земанта проводит анализ и может предложить теги и ссылки. Это плагин WordPress тоже.

Единственная проблема: в настоящее время она требует ручного открытия, выбора и сохранения каждого сообщения.

Однако для WordPress существует огромное количество плагинов для автоматической пометки. Вы должны найти плагин поиска и дать несколько попыток.