Строковые литералы Unicode - программирование

С++ 11 представляет новый набор префиксов строковых литералов (и даже позволяет определять суффиксы, заданные пользователем). Кроме того, вы можете напрямую использовать escape-последовательности Unicode для кодирования определенного символа, не беспокоясь о кодировании.

Но могу ли я использовать escape-последовательности unicode в строковых литералах wchar_t? Казалось бы, это был дефект, если это было невозможно.

Целочисленное значение sw[0], конечно, будет зависеть от того, что wchar_t находится на определенной платформе, но для всех других эффектов это должно быть портативным, нет?

Ответы

Ответ 1

Это сработает, но у него может не быть желаемой семантики. \u00DA будет расширяться на столько целевых символов, сколько необходимо для кодировки UTF8/16/32, в зависимости от размера wchar_t, но имейте в виду, что в широких строках нет какой-либо задокументированной гарантированной семантики кодирования - они просто "системное кодирование", без попытки сказать, что это такое, или потребовать от пользователя знать, что это такое.

Так что лучше не смешивать и не сочетать. Используйте один, но не оба, из двух:

зависит от системы: char*/"", wchar_t*/L"", \x -литераторы, mbstowcs/wcstombs
Юникод: char*/u8"", char16_t*/u"", char32_t*/u"", \u/\u литералы.

(Ниже приведены некоторые questions по этому вопросу.)