Ответ 1
Хорошо, похоже, что пакет был разработан для улучшения и упрощения инструментария манипуляции строкой в R (наконец!). Он называется stringi и выглядит очень многообещающим. Его документация очень хорошо написана, и в частности я нахожу страницы encodings и гораздо более интересны, чем некоторые из стандартных R-документации по этому вопросу.
У него есть функции нормализации Unicode, которые я искал (здесь форма C):
> stri_trans_nfc('\u00e9') == stri_trans_nfc('\u0065\u0301')
[1] TRUE
Он также содержит умную функцию сравнения , которая объединяет эти вопросы нормализации и уменьшает боль, когда им приходится думать о них:
> stri_compare('\u00e9', '\u0065\u0301')
[1] 0
# i.e. equal ;
# otherwise it returns 1 or -1, i.e. greater or lesser, in the alphabetic order.
Благодаря разработчикам, Мареку Гаглоувски и Бартек Тартанусу, а также Курту Хорнику за информацию!