Как создать алфавитный указатель слова документа?

720
Filippo

Мой начальник дал мне PDF и попросил создать алфавитный указатель.

Указатель будет содержать только интересные (для него) слова. Список «интересных слов» недоступен, и я должен создать его и показать его на утверждение.

Я думаю, что могу найти способ преобразовать pdf в .doc, и Libreoffice может создать алфавитный указатель, как только вы дадите ему файл .sdi, содержащий «интересные слова».

Поэтому моя большая задача сейчас состоит в том, чтобы извлечь все уникальные слова из pdf, отфильтровать их, чтобы исключить слишком распространенные и создать список наиболее значимых. Какие-либо предложения ? Должен ли я написать простое приложение для фильтрации слов или я могу использовать существующее программное обеспечение?

Спасибо Филиппо

0

1 ответ на вопрос

-1
Zvi Twersky

Да, вы извлекли бы документ, чтобы получить доступ к тексту, а затем использовать программное обеспечение для анализа и получения ключевых слов (или, как вы выразились - интересные слова).

TexLexAn - хороший вариант с открытым исходным кодом: http://texlexan.sourceforge.net/

Вот другие: http://www.quora.com/What-are-good-tools-to-extract-key-words-and-or-topics-tags-from-a-random-paragraph-of-text

Ты один занятой парень. Взгляните на это обсуждение, чтобы не зависеть от рекомендаций по программному обеспечению: http://meta.superuser.com/questions/5329/how-do-i-recommend-software-in-my-answers fixer1234 9 лет назад 0
К сожалению, Билл Гейтс не нашел кнопку для Windows под названием «Нажмите здесь, чтобы извлечь интересные слова из файла PDF». Иногда, если вы сами не программист, программное обеспечение является единственным решением. Я советую вам сосредоточиться на потребностях пользователей и прекратить комментировать ответы и комментарии других. Zvi Twersky 9 лет назад 0

Похожие вопросы