Да, вы извлекли бы документ, чтобы получить доступ к тексту, а затем использовать программное обеспечение для анализа и получения ключевых слов (или, как вы выразились - интересные слова).
TexLexAn - хороший вариант с открытым исходным кодом: http://texlexan.sourceforge.net/