Юникод для японского

Я пытаюсь отделить английский и японский символы. Мне нужно найти Unicode диапазон всех японских символов. Что представляет собой диапазон Юникода всех японских символов?

Ответы

Ответ 1

CJK (китайский японский и корейский), Хирагана и Катакана (включая Halfwidth Katakana)

http://www.unicode.org/charts/

Ответ 2

Как упоминалось в zawhtut, эта страница содержит ссылку для нескольких диапазонов Unicode. Чтобы суммировать диапазоны:

  • пунктуация японского стиля (3000 - 303f)
  • Хирагана (3040 - 309f)
  • Катакана (30a0 - 30ff)
  • Полноразмерные римские символы и полуширина katakana (ff00 - ffef)
  • Унифицированные идеограммы CJK - Обычный и необычный кандзи (4e00 - 9faf)

Ответ 3

См. эту страницу для справки. Он содержит диапазоны катаканы, хираганы и кандзи юникода.

Ответ 4

Хотя на этот вопрос уже есть ответ, этот пост в блоге, вероятно, является более полным.

Пожалуйста, посетите сайт и получите их метрики, но для потомков здесь есть копия-паста.

Хирагана

[\x3041-\x3096] выражение кодовых точек Юникода: [\x3041-\x3096]

Свойство блока Юникод регулярное выражение: \p{Hiragana}

ぁ あ ぃ い ぅ ぇ え ぉ が が が が く ぐ ぐ こ こ こ こ さ し じ ず ぞ ぞ ぞ た でぬび ぴ ふ ぶ ぷ べ ぺ ほ ほ ま ま ま む め も や ゅ ゅ ゅ ゅ ら り れ ゐ ゐ ゐ ゐ ゑ を ゛ ゛ ゛ ゛

Катакана (полная ширина)

[\x30A0-\x30FF] выражение кодовых точек Юникода: [\x30A0-\x30FF]

Свойство блока Юникод регулярное выражение: \p{Katakana}

゠ ァ ア ィ イ ウ ェ エ カ カ カ カ ギ ク ク ゲ ゲ ゲ ゲ ゴ ザ シ ス ソ ソ ソ ゾ テニヒ ビ ピ フ プ ヘ ベ ペ ペ ポ ポ ポ ム ム メ ャ ヤ ヤ ヤ ヤ ヨ ラ リ ワ ワ ワ ヰ ヰ ヸ ヸ ヸ ヸ ヹ ・ ヾ ヾ ヿ ヿ

Kanji

[\x3400-\x4DB5\x4E00-\x9FCB\xF900-\xFA6A] точки Unicode регулярное выражение: [\x3400-\x4DB5\x4E00-\x9FCB\xF900-\xFA6A]

Свойство блока Юникод регулярное выражение: \p{Han}

漢字 日本語 文字 言語 言葉 и т.д. Слишком много символов в списке.

Это регулярное выражение будет соответствовать всем кандзи, включая те, которые используются на китайском языке.

Кандзи радикалы

[\x2E80-\x2FD5] выражение кодовых точек Unicode: [\x2E80-\x2FD5]

⺀ ⺁ ⺂ ⺃ ⺄ ⺆ ⺇ ⺈ ⺋ ⺋ ⺋ ⺋ ⺎ ⺏ ⺏ ⺒ ⺒ ⺒ ⺒ ⺔ ⺖ ⺗ ⺙ ⺝ ⺝ ⺝ ⺞ ⺦⺫ ⺲ ⺳ ⺴ ⺵ ⺶ ⺸ ⺹ ⺺ ⺽ ⺽ ⺽ ⺽ ⻀ ⻁ ⻁ ⻄ ⻄ ⻄ ⻄ ⻆ ⻈ ⻉ ⻋ ⻏ ⻏ ⻏ ⻐ ⻘⻝ ⻤ ⻥ ⻦ ⻧ ⻨ ⻪ ⻫ ⻬ ⻯ ⻯ ⻯ ⻯ ⻲ ⻳ ⻳ ⼂ ⼂ ⼂ ⼂ ⼄ ⼆ ⼇ ⼉ ⼍ ⼍ ⼍ ⼎ ⼖⼛ ⼢ ⼣ ⼤ ⼥ ⼦ ⼨ ⼩ ⼪ ⼭ ⼭ ⼭ ⼭ ⼰ ⼱ ⼱ ⼴ ⼴ ⼴ ⼴ ⼶ ⼸ ⼹ ⼻ ⼿ ⼿ ⼿ ⽀ ⽈⽍ ⽔ ⽕ ⽖ ⽗ ⽘ ⽚ ⽛ ⽜ ⽟ ⽟ ⽟ ⽟ ⽢ ⽣ ⽣ ⽦ ⽦ ⽦ ⽦ ⽨ ⽪ ⽫ ⽭ ⽱ ⽱ ⽱ ⽲ ⽺⽿ ⾆ ⾇ ⾈ ⾉ ⾊ ⾌ ⾍ ⾎ ⾑ ⾑ ⾑ ⾑ ⾔ ⾕ ⾕ ⾘ ⾘ ⾘ ⾘ ⾚ ⾜ ⾝ ⾟ ⾣ ⾣ ⾣ ⾤ ⾬⾱ ⾸ ⾹ ⾺ ⾻ ⾼ ⾽ ⾿ ⾿ ⿀ ⿃ ⿃ ⿃ ⿅ ⿆ ⿆ ⿉ ⿊ ⿊ ⿋ ⿌ ⿍ ⿍ ⿐ ⿑ ⿑ ⿒ ⿕ ⿕ ⿕

Катакана и пунктуация (половина ширины)

[\xFF5F-\xFF9F] выражение кодовых точек Юникода: [\xFF5F-\xFF9F]

⦅ ⦆。 「」 ・ ヲ ァ ェ ェ ェ ェ ュ ョ ョ ア ア ア ア ウ オ カ ク シ シ シ ス ナハム メ モ ヤ ユ ヨ ラ リ ル レ ロ ワ ン ゙

Японские символы и пунктуация

[\x3000-\x303F] выражение кодовых точек Юникода: [\x3000-\x303F]

、。 〃 〄 々 〇 〈〉 「「 「「 』【【〓 〓 〓 〓〕〗 〘〚〞 〞〞 〟〧〬 〳 〴 〵 〶 〷 〸 〹 〺 〻 〼 〽 〾 〿

Разные японские символы и символы

[\x31F0-\x31FF\x3220-\x3243\x3280-\x337F] точки Юникода регулярное выражение: [\x31F0-\x31FF\x3220-\x3243\x3280-\x337F]

ㇰ ㇱ ㇲ ㇳ ㇴ ㇶ ㇷ ㇸ ㇻ ㇻ ㇻ ㇻ ㇾ ㇿ ㇿ ㈢ ㈢ ㈢ ㈢ ㈤ ㈦ ㈧ ㈩ ㈭ ㈭ ㈭ ㈮ ㈶㈻ ㉂ ㉃ ㊀ ㊁ ㊂ ㊄ ㊅ ㊆ ㊉ ㊉ ㊉ ㊉ ㊌ ㊍ ㊍ ㊐ ㊐ ㊐ ㊐ ㊒ ㊔ ㊕ ㊗ ㊛ ㊛ ㊛ ㊜ ㊤㊩ ㊰ ㊱ ㊲ ㊳ ㊴ ㊶ ㊷ ㊸ ㊻ ㊻ ㊻ ㊻ ㊾ ㊿ ㊿ ㋂ ㋂ ㋂ ㋂ ㋄ ㋆ ㋇ ㋉ ㋑ ㋑ ㋑ ㋒ ㋚㋟ ㋦ ㋧ ㋨ ㋩ ㋪ ㋬ ㋭ ㋮ ㋱ ㋱ ㋱ ㋱ ㋴ ㋵ ㋵ ㋸ ㋸ ㋸ ㋸ ㋺ ㋼ ㋽ ㌀ ㌄ ㌄ ㌄ ㌅ ㌍㌒ ㌙ ㌚ ㌛ ㌜ ㌝ ㌟ ㌠ ㌡ ㌤ ㌤ ㌤ ㌤ ㌧ ㌨ ㌨ ㌫ ㌫ ㌫ ㌫ ㌭ ㌯ ㌰ ㌲ ㌶ ㌶ ㌶ ㌷ ㌿㍄ ㍋ ㍌ ㍍ ㍎ ㍏ ㍑ ㍒ ㍓ ㍖ ㍖ ㍖ ㍖ ㍘ ㍙ ㍚ ㍝ ㍝ ㍝ ㍝ ㍟ ㍡ ㍢ ㍤ ㍨ ㍨ ㍨ ㍩ ㍱ ㍱㍻

Буквенно-цифровая и пунктуация (полная ширина)

[\xFF01-\xFF5E] выражение кодовых точек Unicode: [\xFF01-\xFF5E]

) "# $ % &) () * + , -. : 0 1 2 3 4 6 7 : : : : < = >? A A B D E H H K L L M N U a b c d e f h h i l l l n o o r s s t u v v y z z {~ ~ ~

Ответ 5

Что такое диапазон Юникода всех японских символов?

Посмотрите на страницу Набор данных для тестирования WiLI для письменного языковая идентификация, особенно таблица II. Число в скобке является частью языка, который вы записываете, с диапазоном кода Unicode (в десятичной форме).

  • 12352 - 12543: японский (48,73%), английский (0,00%)
  • 19000 - 44000: японский (32,78%), английский (0,00%)
  • 20 - 128: английский (99.74%), японский (11.58%)

Вы можете видеть, что 20 - 128 отлично улавливают английский и что все 3 блока важны для японцев, но все еще большие части отсутствуют.

Эти числа создаются с помощью lidtk и WiLI-2018.