Где найти символы Unicode 5 из определенной категории?

414
hydroper

Мне нужно перечислить все символы из категории ID Start и ID Continue в Unicode. Где я могу сделать это для конкретной версии Unicode (в данном случае Unicode 5)?

Я думаю, что сайт https://codepoints.net не позволяет делать это для конкретной версии Unicode.

1
Помогает ли [Unicode 5.0.0] (http://www.unicode.org/versions/Unicode5.0.0/)? Смотрите ссылки на левой стороне. DavidPostill 7 лет назад 1
@DavidPostill Хм, да, я прочитал это, но я не уверен, что я легко пойму связанные документы. Я хочу перейти прямо к символам IDS и IDC или просто узнать, не изменились ли они после Unicode 2.0 ... hydroper 7 лет назад 0
Я больше не могу помочь, потому что я не знаю, что такое категории IDS и IDC, поэтому я не совсем понимаю вопрос. : / DavidPostill 7 лет назад 0
[Предложение по переопределению объема последовательностей идеографического описания и кодированию четырех дополнительных символов идеографического описания] (http://www.unicode.org/L2/L2009/09171-n3643-ideo-desc.pdf) и, возможно, более ранней версии [CJKRadicals-9.0.0.txt] (http://www.unicode.org/Public/9.0.0/ucd/CJKRadicals.txt) JosefZ 7 лет назад 1
@JosefZ Извините ... Я забыл указать, что IDS будет ID Start, а IDC будет ID Continue. Они будут соответствовать спецификации ECMAScript 3 или 4 для Идентификатора. hydroper 7 лет назад 0

1 ответ на вопрос

2
JosefZ

Согласно Стандартному Приложению № 31 Unicode® (идентификатор Unicode и синтаксис шаблона), ID_Startи ID_Continueкатегории символов получены из Unicode General_Category(прочитайте целые статьи формата файлов UnicodeData и базы данных символов Unicode ).

См. Таблицу 2. Свойства для лексических классов для идентификаторов (дайджест):

  • ID_Startсимволы являются производными от Unicode General_Category заглавных букв, строчных букв, заглавных букв, букв-модификаторов, других букв, цифр, символов плюс Other_ID_Start, минус Pattern_Syntaxи Pattern_White_Spaceкода.

    • В наборе обозначений:
    • [[:L:][:Nl:][:Other_ID_Start:]--[:Pattern_Syntax:]--[:Pattern_White_Space:]]
  • ID_Continueсимволы включают в себя ID_Startсимволы, плюс символы, имеющие Unicode General_Category непространственных меток, интервальные комбинирующие метки, десятичное число, пунктуацию соединителя, плюс Other_ID_Continue, минус Pattern_Syntaxи Pattern_White_Spaceкодовые точки.

    • В наборе обозначений:
    • [[:ID_Start:][:Mn:][:Mc:][:Nd:][:Pc:][:Other_ID_Continue:]--[:Pattern_Syntax:]--[:Pattern_White_Space:]]

Мы можем увидеть ссылку Other_ID_Start, Other_ID_Continue, Pattern_Syntaxи Pattern_White_Spaceздесь; например:

Точный список символов, покрываемых Other_ID_Startи Other_ID_Continueсвойства зависит от версии Unicode . Для получения дополнительной информации см. Стандартное приложение Unicode № 44 «База символов Unicode» [UAX44] .

Разобрать UnicodeData.txt, применить действительные регулярные выражения, созданные из указанных выше обозначений . Применить к соответствующей версии UnicodeData.txt, просматривая из индекса / Public .

 http://unicode.org/Public/5.0.0/ucd/UnicodeData.txt ↑ ↑ ↑ 
Большое спасибо, спасибо, я думаю, что с вашей помощью я смогу получить кодовые точки для `ID_START` и` ID_CONTINUE`, я также попробую совместить его с ECMAScript 4 ... hydroper 7 лет назад 0