Ответ 1
Обычно используемые символы Hanzi/Kanji находятся в блоке "Объединенные идеографы CJK" между U + 4E00 и U + 9FFF и принимают 3 байта в UTF-8. (Японские символы Хираганы и Катакана также занимают 3 байта.)
Тем не менее, есть также очень редко используемые символы в блоках CJK Unified Ideographs Extension B и "CJK Compatibility Ideograms Supplement", которые принимают 4 байта в UTF-8.
Также помните, что китайский текст часто содержит символы ASCII, такие как цифры 0-9.