Какая кодировка символов используется?
Нечетные коды символов:
ก ็็็็็็็็็็็็็็็็็็็็ ก ิิิิิิิิิิิิิิิิิิิิ ก ้้้้้้้้้้้้้้้้้้้้ ก ็็็็็็็็็็็็็็็็็็็็ ก ิิิิิิิิิิิิิิิิิิิิ ก ้้้้้้้้้้้้้้้้้้้้ ก ็็็็็็็็็็็็็็็็็็็็ ก ิิิิิิิิิิิิิิิิิิิิ ก ้้้้้้้้้้้้้้้้้้้้ ก ็็็็็็็็็็็็็็็็็็็็ ก ิิิิิิิิิิิิิิิิิิิิ ก ้้้้้้้้
Вопрос: Какая кодировка этих символов?
(Совет: попробуйте отредактировать этот вопрос, и вы увидите, почему они странные, LIVE)
Да, это так. Вы видите то же самое, что и я.
По-видимому, это произошло от мака. Итак, с небольшим знанием предмета, который у меня есть, я выпустил блокнот ++ и попытался просмотреть его в шестнадцатеричном формате.
Результат? Попробуйте сами: http://notepad-plus-plus.org/
Довольно очевидно; Какого черта?
Я могу понять, если это Just a Bunch of Bits
в какой-то странной запатентованной двоичной кодировке (содержащей такие вещи, как цвет, шрифт и т.д.). Но почему они так странно выглядят?
Также почему notepad ++ не показывает исходные символы с самого начала? Если вы включите шестнадцатеричный редактор, а затем отключите его, он будет расширяться.
(Также (снова), попробуйте скопировать вложенные выше символы дважды в блокнот ++. См. разницу? Ничего, кроме 0x3f
и случайных 0x20
. Это также верно для каждого отдельного символа. как я знаю, ни пространство, ни вопросительный знак не похожи на вышеуказанные символы. Но, может быть, я ошибаюсь..)
Вот фрагмент из прогноза:
![Do you see that?!?!]()
EDIT: Редактирование этих символов с помощью UTF-8
вместо глупого ANSI
фактически позволяет вам видеть правильные байты.
РЕДАКТИРОВАТЬ 2: Я, вероятно, должен был быть более ясным в том, что я хотел знать, когда писал этот вопрос (в моей защите я был настолько измучен, что мне просто хотелось кричать BRAINOVERFLOW
, когда Я видел это [скриншот]).
РЕДАКТИРОВАТЬ 3: (скопировано из ответа yahoo)
Кажется, это вещь, называемая "укладкой диакритики" с использованием тайских символов.
По сути, тайский персонаж ก "ko kai" может иметь любую из нескольких надстрочных диакритических знаков, таких как ็ "maitaikhu". Если вы следуете "ko kai" с "maitaikhu", последний выглядит как верхний индекс таким образом: ก็
Если вы добавите дополнительные диакритики после такой комбинации, они будут складываться так: ก ็็็็็
Вот символы, которые это сделают: http://graphemica.com/search?q=%E0%B8%81...
Ответы
Ответ 1
Простой поиск в gnome charmap:
U+0E01 THAI CHARACTER KO KAI
General Character Properties
In Unicode since: 1.1
Unicode category: Letter, Other
Various Useful Representations
UTF-8: 0xE0 0xB8 0x81
UTF-16: 0x0E01
C octal escaped UTF-8: \340\270\201
XML decimal entity: ก
за которым следует (один или несколько вариантов):
U+0E47 THAI CHARACTER MAITAIKHU
General Character Properties
In Unicode since: 1.1
Unicode category: Mark, Non-Spacing
Various Useful Representations
UTF-8: 0xE0 0xB9 0x87
UTF-16: 0x0E47
C octal escaped UTF-8: \340\271\207
XML decimal entity: ็
Annotations and Cross References
Alias names:
• mai taikhu
Вторая - это метка без пробела, украшающая первый char
Ответ 2
Ввод этих символов в поле поиска Graphmenica приведет вас к этой странице, показывая разные используемые символы: