Согласно Стандартному Приложению № 31 Unicode® (идентификатор Unicode и синтаксис шаблона), ID_Start
и ID_Continue
категории символов получены из Unicode General_Category
(прочитайте целые статьи формата файлов UnicodeData и базы данных символов Unicode ).
См. Таблицу 2. Свойства для лексических классов для идентификаторов (дайджест):
ID_Start
символы являются производными от Unicode General_Category заглавных букв, строчных букв, заглавных букв, букв-модификаторов, других букв, цифр, символов плюсOther_ID_Start
, минусPattern_Syntax
иPattern_White_Space
кода.
- В наборе обозначений:
[[:L:][:Nl:][:Other_ID_Start:]--[:Pattern_Syntax:]--[:Pattern_White_Space:]]
ID_Continue
символы включают в себяID_Start
символы, плюс символы, имеющие Unicode General_Category непространственных меток, интервальные комбинирующие метки, десятичное число, пунктуацию соединителя, плюсOther_ID_Continue
, минусPattern_Syntax
иPattern_White_Space
кодовые точки.
- В наборе обозначений:
[[:ID_Start:][:Mn:][:Mc:][:Nd:][:Pc:][:Other_ID_Continue:]--[:Pattern_Syntax:]--[:Pattern_White_Space:]]
Мы можем увидеть ссылку Other_ID_Start
, Other_ID_Continue
, Pattern_Syntax
и Pattern_White_Space
здесь; например:
Точный список символов, покрываемых
Other_ID_Start
иOther_ID_Continue
свойства зависит от версии Unicode . Для получения дополнительной информации см. Стандартное приложение Unicode № 44 «База символов Unicode» [UAX44] .
Разобрать UnicodeData.txt
, применить действительные регулярные выражения, созданные из указанных выше обозначений . Применить к соответствующей версии UnicodeData.txt
, просматривая из индекса / Public .
http://unicode.org/Public/5.0.0/ucd/UnicodeData.txt ↑ ↑ ↑