Как осуществляется кодировка символов внутри Сакуры?

905
jonsca

В редакторе Sakura у вас может быть .txtфайл с кодировкой UTF-8, который содержит 2 символа, которые недоступны в кодировке EUC.

Когда я сохранил .txtиз UTF-8 в EUC в редакторе, все работает хорошо, и все символы отображаются правильно.

Кто-нибудь знает, какую логику использует редактор для этого?

1
Я не полностью слежу за вашим вопросом. Какие 2 ваших персонажа "недоступны в EUC"? Источник для этого приложения доступен здесь: http://sakura-editor.svn.sourceforge.net/viewvc/sakura-editor/sakura/trunk/sakura_core/. Я уверен, что charcode.cpp / .h имеет то, что вы ищете. Вы, вероятно, также можете получить желаемую функциональность от ** libiconv **. 13 лет назад 0

1 ответ на вопрос

0
Arjan

который содержит 2 символа, которые не доступны в кодировке EUC

Если вы видите два символа ÿþ(шестнадцатеричный FF FE) или þÿ(шестнадцатеричный FE FF) в начале первой строки, тогда файл кодируется в UTF-16, а не в UTF-8. Эти символы фактически являются « меткой порядка байтов » (BOM), которую редактор должен интерпретировать, а не показывать.

(На всякий случай, если вы видите три символа , являющиеся шестнадцатеричными EF BB BF, в начале первой строки, тогда это спецификация для UTF-8. Если вы видите другие символы или нет в начале первой строки, можете ли вы отредактировать свой вопрос, чтобы добавить пример?)

Похожие вопросы