API / инструмент для добычи неструктурированного текста?

625
Sridhar-Sarnobat

Я хочу создать концептуальную карту из неструктурированного текста. Например

Desired input: find "/" -name "*.txt" Desired output: concepts-graph.dot 

Другими словами, я хочу добывать свои текстовые файлы и создавать некое структурированное представление ключевых слов / понятий. Слабо плохой анализатор текста Google.

Существует ли инструмент / API с открытым исходным кодом, который может найти отношения между терминами в текстовом файле?

1
Шридихар, мы пытаемся объединить [графики] в [диаграммы] в соответствии с http://meta.superuser.com/questions/6841/should-charts-and-graphs-tags-be-merged. Kenster 9 лет назад 0
хммм, так что ни «график», ни «диаграмма» не могут быть использованы здесь. И нет такого тега, как «направленный ациклический граф» Sridhar-Sarnobat 9 лет назад 0

1 ответ на вопрос

1
Soz

Есть много инструментов, которые вы можете создать с помощью:

Что касается ключевых слов, существуют базовые инструменты, такие как средства портера Porter, доступные на большинстве языков программирования, и множество дополнительных опций для конкретных языков.

Например, есть NLTK (инструментарий естественного языка) - система классификации текста Python - которую вы можете использовать для таких вещей, как тегирование части речи ( http://nltk.org/ )

Кроме того, существуют различные пакеты для интеллектуального анализа текста, которые вы можете использовать в R: http://tm.r-forge.r-project.org/, например (также см. Эти слайды: http://www.zinkov.com/posts /2010-10-21-slides_from_larug/tm_slides.pdf ).

Если вы можете дать более четкое представление о том, какой анализ текста вы имеете в виду, было бы проще предложить конкретные пакеты, которые могут иметь отношение к делу?

Спасибо за ответ Соз. По сути, мой todo.txt содержит много пар URL + заголовок с сайтов, которые я посетил (я сохраняю их все перед закрытием окна браузера при каждом сеансе). Я хочу получить наглядное представление о том, что я трачу на чтение времени, в форме диаграммы паука (или графика). Таким образом, график может содержать следующие пути: (1) root -> nosql -> cassandra (2) root -> nosql -> neo4j (3) root -> футбол -> бразильские игроки -> Ronaldo Так что вместо того, чтобы тратить часы на чтение моего TXT-файл, я могу просто посмотреть на диаграмму и извлечь из нее полезный контент. Sridhar-Sarnobat 11 лет назад 0
Понял. Ну, в таком случае (на заказ наборы данных), мой опыт заключается в том, что самый простой способ - выбрать ваш любимый Perl, Python или другой подобный язык и создать файл точек напрямую. Что касается точечных файлов: я предлагаю ключевое слово «строгий» при объявлении графа, чтобы избавиться от дублирующих путей, и попробуйте край [penwidth = 0.2] или около того, чтобы линии были достаточно светлыми. Что касается анализа заголовка, пометка части речи может помочь вытащить наиболее подходящие термины кандидата. Soz 11 лет назад 0
Я предполагаю, что это вся информация, которая мне нужна в теории. Трудная часть - найти простой в использовании пакет. Я пробовал Мауи и Джейт, но разочаровался в обоих. Sridhar-Sarnobat 11 лет назад 0

Похожие вопросы