Получить все надстрочные символы Wordperfect в документе для преобразования в Unicode
250
sautedman
Я работаю над освобождением словаря, написанного в wordperfect 5, в обычный текст. В идеале я получу файл UTF-8 с каждой записью в отдельной строке и полями, разделенными табуляцией, но я отвлекся.
Проблема, с которой я столкнулся, состоит в том, что в словарь входит много символов, не относящихся к ascii, которые были составлены с (потенциально множественными) ударами, некоторые из которых содержат форматирование символов с зачеркиванием (?). Есть ли способ получить полный список штрихов, используемых в документе, вместе с их компонентами символов? Если я не ошибаюсь, это необходимая предпосылка для переноса оверриков в юникод с помощью скрипта или другого инструмента конвертации.
0 ответов на вопрос
Похожие вопросы
-
6
Unicode, Unicode Big Endian или UTF-8? В чем разница? Какой формат лучше?
-
3
Vim: Как обрабатывать файлы Unicode с текстом на нескольких (более двух) языках?
-
8
Как вы вводите символы Юникода, используя шестнадцатеричные коды?
-
-
3
Как сделать символы Unicode видимыми в Emacs?
-
6
Как я могу редактировать текст Unicode в Notepad ++?
-
2
Почему сообщения Craigslist заполнены вопросительными знаками?
-
4
Как заставить WordPerfect 5.1 работать под Vista?
-
2
Настройка кодировки по умолчанию для не-Unicode программ / документов в Mac OS X 10.5
-
7
Странные символы на Mac
-
5
Из каких символов Юникода состоят смайлики, такие как ٩ (• ̮̮̃ • ̃) ۶?