Есть ли программное обеспечение, которое выполняет текстовый анализ в блогах?
974
Brian Bauman
Моя компания стремится создать PivotViewer для визуализации клиентских сообщений в блоге Wordpress 2 за последние 11 лет. Однако для этого нам нужно отредактировать несколько случайных, неполных и, как правило, плохих тегов для использования в качестве сортируемых категорий. Я ищу инструмент, который будет анализировать их записи в блоге и выполнять подсчет слов, чтобы дать нам представление о том, с чем мы имеем дело.
В идеале, он будет иметь все эти функции:
Черный список слов (игнорировать)
Слово stemming
Пользовательский синоним слияния
Подсчет всех использований
Подсчет количества постов, в которых появляется слово.
Я бы подумал, что такого рода текстовый анализ будет чрезвычайно распространен, но я не смог найти ни одного программного обеспечения, которое бы делало подобные вещи во всех блогах. Есть ли программное обеспечение для этого?
Интересно. Если сомневаешься, у Питона твоя спина.
James T Snell 13 лет назад
3
Да ... Я правда надеюсь, что мне не придется на этом кататься.
Brian Bauman 13 лет назад
0
there is something that does this... I remember a friend analyzed wikipedia... I will check with him tomorrow
Keltari 13 лет назад
0
Программное обеспечение, которое вы ищете, может иметь много названий, таких как «Анализ содержимого», «Облако тегов» или «Метатеги» и многие другие, такие как «анализ текста» и «Анализ текста».
Для этих целей существует очень много программных инструментов, как бесплатных, так и коммерческих.
У меня нет личного опыта работы с такими инструментами, но хорошее место для начала - инструменты анализа текста, в которых перечислены десятки таких инструментов, как бесплатных, так и коммерческих.
I filtered my way through the first list, but none of the free options include much more than linguistic analysis. Haven't looked through the second list yet - I may end up rolling my own.
Brian Bauman 13 лет назад
0
Видя, что это блог клиентов, у вас, вероятно, есть доступ к базе данных. Загрузите все статьи в виде открытого текста и используйте одну из вышеперечисленных программ для решения вопросов обработки естественного языка (1, 2, 3 и 5).
Количество применений трудно по-настоящему автоматизировать, поскольку оно связано с автоматическим определением значения слов с использованием контекста.
Подсчет всех применений, а не пользователей. Спасибо за предложения, хотя.
Brian Bauman 13 лет назад
0
Я неправильно понял, mybad. Тем не менее вы должны проверить Rapidminer или Weka для обработки естественного языка. То есть, если набор данных не огромен, потому что оба пытаются поместить его в память
suweller 13 лет назад
0
2
Laurence
one of the most content analysis software is WordStat designed by Provalis Research
WordStat is a text analysis module for QDA Miner or SimStat. WordStat combines content analysis method by using dictionary approach and many algorithms exploration or various text mining methods. WordStat can apply existing categorization dictionaries to a new text corpus. It also may be used in the development and validation of new categorization dictionaries. When used in conjunction with manual coding, this module can provide assistance for a more systematic application of coding rules, help uncover differences in word usage between subgroups of individuals and assist in the revision of existing coding using KWIC (Keyword In Context) tables. WordStat is specifically designed to study textual information such as responses to open-ended questions, interviews, titles, journal articles, public speeches, electronic communications, etc.
Функции манипулирования данными, такие как: Tally, GatherBy
Лингвистический анализ (только на английском языке): WordData
0
Jürgen Strobel
На некоторые из этих вопросов можно было бы быстро и грязно ответить с помощью поиска Google в своем блоге (проще всего, если у него есть собственный домен).
0
music2myear
Земанта проводит анализ и может предложить теги и ссылки. Это плагин WordPress тоже.
Единственная проблема: в настоящее время она требует ручного открытия, выбора и сохранения каждого сообщения.
Однако для WordPress существует огромное количество плагинов для автоматической пометки. Вы должны найти плагин поиска и дать несколько попыток.