Как получить обратную строку (без юникода)

Предположим, мы хотим вернуть следующую строку "áe".

который дает нам "éa" (\ u0065\u0301\u0061), когда мы надеемся получить "eá" (\ u0065\u0061\u0301). Акцентный акцент "должен совпадать с" а ", а не" е".

Следующий код дает мне ожидаемый результат для этой строки:

Я проверяю, есть ли каждый символ Letter, Digit или ISO Control. Если нет, я предполагаю, что он должен совпадать с предыдущим символом.

Вопрос в том, есть ли другие вещи, о которых я должен проверить или беспокоиться? Является ли мой aproach еще наивным?

Ответы

Ответ 1

Ваша проблема также может быть решена путем преобразования строки в каноническую форму разложения NFC. В принципе, класс java.text.Normalizer может использоваться для объединения акцентов и других комбинаций символов с их базовыми символами, чтобы вы могли правильно отменить.

Все эти другие идеи (String.reverse(), StringBuffer.reverse()) будут правильно менять символы в вашем буфере, но если вы начнете с разложенных символов, вы можете не получить то, что ожидаете:).

В некоторых "формах разложения" символы акцента хранятся отдельно от их базовых форм (в виде отдельных символов), но в "комбинированной" форме они не являются. Таким образом, в одной форме "áe" хранится как три символа, а в другой, объединенной форме, как два.

Однако такая нормализация недостаточна для обработки других комбинаций символов и не может содержать символы в астральных плоскостях Юникода, которые хранятся в виде двух символов (или более?) в Java.

Благодаря tchrist для указания поддержки ICU сегментации текста, включая расширенные кластеры grapheme, такие как те, которые указаны в комментариях ниже (см. virama). Этот ресурс, по-видимому, является авторитетным источником информации о подобных вещах.