Python: получение правильной длины строки, когда она содержит суррогатные пары

Правильный вывод должен был быть 7, но поскольку пятый из этих семи китайских символов имеет высокую кодовую точку Юникода, он представлен в UTF-8 "суррогатной парой", а не только одним простым кодовым пунктом, и в результате Python считает, что это два символа, а не один.

Даже если я использую unicodedata, который правильно возвращает суррогатную пару в виде одного кодового пункта (\U00026177), при передаче в len() возвращается неправильная длина:

Не предпринимая таких решительных шагов, как перекомпиляция Python для UTF-32, есть ли простой способ получить правильную длину в таких ситуациях?

Ответы

Ответ 1

Я думаю, что это было исправлено в 3.3. См:

http://docs.python.org/py3k/whatsnew/3.3.html
http://www.python.org/dev/peps/pep-0393/ (поиск wstr_length)

Ответ 2

Я делаю функцию для этого на Python 2:

SURROGATE_PAIR = re.compile(u'[\ud800-\udbff][\udc00-\udfff]', re.UNICODE)
def unicodeLen(s):
  return len(SURROGATE_PAIR.sub('.', s))

Заменяя суррогатные пары одним символом, мы фиксируем функцию len. В обычных строках это должно быть довольно эффективно: поскольку шаблон не будет соответствовать, исходная строка будет возвращена без изменений. Он должен работать и с широкими (32-разрядными) сборками Python, так как кодирование суррогатной пары не будет использоваться.

Ответ 3

Вы можете переопределить функцию len в Python (см.: Как работает len?) и добавить в нее инструкцию if, чтобы проверить длинный unicode.