Как я могу узнать кодировку этого испорченного китайского текста, который онлайн-инструмент исправляет правильно?

664
rubystallion

У меня есть текст на упрощенном китайском, который, когда читается как UTF-8, начинается с того ´ÓºÜ¾ÃÒÔÇ°¿ªÊ¼, что онлайн-инструмент от MandarinTools (первый результат поиска для Repair Corrupted Chinese Email ) исправляет 从很久以前开始, но не ясно, как это исправить. Из использования онлайн-инструмента и шестнадцатеричного редактора я знаю, что каждый символ кодируется как 32-битная фиксированная длина:

c2b4 c393 从 c2ba c39c 很 c2be c383 久 c392 c394 以 c387 c2b0 前 c2bf c2aa 开 c38a c2bc 始 

Это также показывает, что символ кодируется как два 16-битных слова в диапазоне c2 ** - c3 **. В UTF-16 первое 16-битное слово всегда равно 0 для этих символов. UTF-8 использует только 24 бита для каждого символа, а кодовая страница 936 использует только 16 бит для каждого символа. Какой метод я могу использовать для определения правильного преобразования кодировки?

представление utf-8:

e4bb 8e 从 e5be 88 很 e4b9 85 久 e4bb a5 以 e589 8d 前 e5bc 80 开 e5a7 8b 始 

cp936 представление:

b4d3 从 badc 很 bec3 久 d2d4 以 c7b0 前 bfaa 开 cabc 始 
2

0 ответов на вопрос