Я использую скрипт Python, который использует docx.py
модуль (см. Здесь ), чтобы читать файлы Word и обрабатывать отдельные слова для связанной задачи. Ключевые биты находятся в следующем коде (который читает только один файл .docx, заданный в качестве первого аргумента командной строки, но может быть легко расширен для подсчета слов во многих файлах:
from docx import * import sys try: document = opendocx(sys.argv[1]) except: print('Could not open '+sys.argv[1]) exit() ## Fetch all the text out of the document paratextlist = getdocumenttext(document) count = {} for line in paratextlist: for word in line.rstrip().split(): count = count.get(word,0) + 1