Каковы правила сортировки по символам?

R сортирует символьные векторы в последовательности, которую я описываю как алфавитный, а не ASCII.

Например:

sort(c("dog", "Cat", "Dog", "cat"))
[1] "cat" "Cat" "dog" "Dog"

Три вопроса:

  • Что такое технически правильная терминология для описания этого порядка сортировки?
  • Я не могу найти ссылки на это в руководствах по CRAN. Где можно найти описание правил сортировки в R?
  • - это что-то отличное от такого поведения на других языках, таких как C, Java, Perl или PHP?

Ответы

Ответ 1

Details: для sort():

 The sort order for character vectors will depend on the collating
 sequence of the locale in use: see ‘Comparison’.  The sort order
 for factors is the order of their levels (which is particularly
 appropriate for ordered factors).

и help(Comparison) показывает:

 Comparison of strings in character vectors is lexicographicwithin
 the strings using the collating sequence of the locale in use:see
 ‘locales’.  The collating sequence of locales such as ‘en_US’ is
 normally different from ‘C’ (which should use ASCII) and can be
 surprising.  Beware of making _any_ assumptions about the 
 collation order: e.g. in Estonian ‘Z’ comes between ‘S’ and ‘T’,
 and collation is not necessarily character-by-character - in
 Danish ‘aa’ sorts as a single letter, after ‘z’.  In Welsh ‘ng’
 may or may not be a single sorting unit: if it is it follows ‘g’.
 Some platforms may not respect the locale and always sort in
 numerical order of the bytes in an 8-bit locale, or in Unicode
 point order for a UTF-8 locale (and may not sort in the same order
 for the same language in different character sets).  Collation of
 non-letters (spaces, punctuation signs, hyphens, fractions and so
 on) is even more problematic.

поэтому это зависит от вашей настройки локали.