Найти кодировку, которая кодирует данный символ в заданную последовательность
Я пытаюсь выяснить, какая кодировка использует какой-то текстовый файл, который я получил. Я знаю, что эта кодировка кодирует é в 0x8E.
Конкретный вопрос: какие кодировки возможно соответствуют?
Общий вопрос: как я могу узнать, в общем, какие кодировки соответствуют некоторым ограничениям, выраженным в виде пар (символ Юникода, последовательность байтов)?
Учарде не помогает: он обнаруживает Windows-1252, но это, очевидно, неправильно в моем случае. Вообще говоря, такой инструмент будет хуже выполнять работу по обнаружению кодировок по сравнению с использованием ограничений в качестве внешних знаний.
Я понимаю, что концептуально может быть задумано любое кодирование, которое кодирует é в 0x8E и что-либо еще во что-либо еще, но я хочу искать только среди кодировок, обычно используемых человеком. (В частности, в этом случае, вероятно, некоторая кодировка обычно используется в западноевропейском мире.)
Я подозреваю, что это можно сделать, используя, например, файлы данных из uchardet, с умным использованием grep или аналогичных инструментов. Предпочтительно задействованные инструменты должны быть бесплатными, как в свободе слова, и доступны в стандартных дистрибутивах GNU-Linux.
0 ответов на вопрос
Похожие вопросы
-
6
Unicode, Unicode Big Endian или UTF-8? В чем разница? Какой формат лучше?
-
3
Vim: Как обрабатывать файлы Unicode с текстом на нескольких (более двух) языках?
-
4
Ubuntu Linux: можно ли вставлять обычный текст по умолчанию?
-
-
8
Как вы вводите символы Юникода, используя шестнадцатеричные коды?
-
3
Как сделать символы Unicode видимыми в Emacs?
-
2
Получить Dingbats, чтобы появиться в Firefox 3?
-
1
Сохранение «Буш спрятал факты» в блокноте
-
1
Как я могу преобразовать несколько файлов в кодировку UTF-8 с помощью инструментов командной строки...
-
6
Как я могу редактировать текст Unicode в Notepad ++?
-
2
Почему сообщения Craigslist заполнены вопросительными знаками?