В сопоставлении utf-8, почему 11- меньше, чем 1-?

Question

В сопоставлении utf-8, почему 11- меньше, чем 1-?

1286

Xiè Jìléi 2011-01-01 в 13:32

Я обнаружил, что результат сортировки в ASCII:

Исходный файл test:

1- 11- 1-a 11-a

Сортировка с использованием ASCII:

$ LANG=en_US.ascii sort test 1- 1-a 11- 11-a

И используя UTF-8:

$ LANG=en_US.utf8 sort test 1- 11- 11-a 1-a

Я чувствую, что это так нелогично, и это не порядок словаря.

Разве символ '-' ( 002d) не всегда меньше [0-9]( 0030-0039)? Каково общее правило в сопоставлении UTF-8?

И как это обойти, просто сделать так, чтобы -меньше было, [0-9]а остальные символы оставить неизменными для UTF-8 в Linux? (Таким образом, он может влияет на результат ls --sort, sortи т.д.)

7

Где именно ты это видишь? В `sort` 8.5 из GNU coreutils" 1- "всегда идет перед" 11- "в любой локали. grawity 13 лет назад 3

Это моя ошибка. Я обрезал строки. Я изменил пример, пожалуйста, попробуйте еще раз. Xiè Jìléi 13 лет назад 0

@ Grawity Я вижу это в Gmail, когда открываю zip-файлы. Я вижу это в Win7 с изображениями: 11, 12, 13, ..., 19, 1. Wolfpack'08 10 лет назад 0

2 ответа на вопрос

6

0

sleske 2011-01-19 в 02:59

Как объяснил Питер Эйзентро, это связано с тем, что алгоритм сортировки для Unicode игнорируется -при сортировке.

Единственный способ обойти это - определить свой собственный языковой стандарт с другими параметрами сортировки (правила сортировки). Это, однако, довольно нетривиально. Кроме того, это даст вам систему с необычными правилами сортировки, которые могут вызвать проблемы с другим программным обеспечением.

Реалистично, вам придется либо переключить язык на ASCII (если вам не нужен символ Unicode), либо выполнить сортировку с помощью программы, в которой вы можете напрямую настроить правила сортировки.

Accepted Answer · 2011-01-02 15:53:25

Знак минус игнорируется при первом проходе. Таким образом, первый проход сорта 1, 11, 1a, 11a. Поскольку 1< a, вы получаете 11a< 1aи, следовательно, 11-a< 1-a.

-является переменным элементом сопоставления, означающим, что вы / разработчик можете игнорировать его. Реализация glibc, очевидно, делает это. На практике это пунктуация влияет на большинство знаков препинания.

Вы можете прочитать подробную информацию в Unicode Collation Algorithm, по модулю, как glibc реализует его.

В сопоставлении utf-8, почему 11- меньше, чем 1-?

2 ответа на вопрос

Похожие вопросы