Правильно отображать символы не-ascii в hunspell

1665
Ludwig Weinzierl

Я хотел бы использовать hunspellформу командной строки для проверки орфографии нескольких текстовых файлов. Файлы имеют кодировку utf-8 и содержат умлауты и другие странные символы.

Некоторые слова появляются так

Верла ~ _lich

вместо этого

verläßlich

Я сказал Hunspell читать файлы в UTF-8 с -i utf-8. Я попытался переключить кодировку в gnome-терминал. Я попробовал это в xtermи xterm -u8. Нет успеха .

Это не проблема шрифта, потому что когда я печатаю странные символы в терминале, они отображаются нормально.

Как я могу заставить странных персонажей появляться?

1

1 ответ на вопрос

1
RJFalconer

Какую команду вы используете для запуска hunspell?

hunspell −d de_DE -i UTF-8 filename 

Если не повезет,

SET UTF-8 

... должен войти в ваш файл аффикса. В вашем случае ваш файл аффикса, вероятно, de_DE.aff.

По умолчанию, если ни один не указан

/usr/share/myspell/default.aff 

Надеюсь это поможет!

Мой файл аффиксов содержит SET ISO8859-1, если я изменю его на UTF-8, hunspell выдаст много ошибок, прежде чем он даже начнет проверку орфографии. Различные сообщения, но большинство из них: Эта кодировка UTF-8 не может конвертировать в UTF-16. Я думаю, что это потому, что файл аффикса просто не UTF-8. Ludwig Weinzierl 15 лет назад 0
Ах, тут какая-то путаница, я думаю. В вашем первоначальном вопросе у вас есть "Файлы в кодировке UTF-8". Если ISO8859-1 имеет наименьшее количество ошибок, это, вероятно, то, что вы хотите. Это, безусловно, должно поддерживать немецкий в любом случае. Можете ли вы опубликовать содержимое вашего файла аффиксов на исходный вопрос вместе с точной командой, которую вы используете для запуска hunspell? Спасибо! RJFalconer 15 лет назад 0

Похожие вопросы