Ответ 1
CJK (китайский японский и корейский), Хирагана и Катакана (включая Halfwidth Katakana)
Я пытаюсь отделить английский и японский символы. Мне нужно найти Unicode диапазон всех японских символов. Что представляет собой диапазон Юникода всех японских символов?
CJK (китайский японский и корейский), Хирагана и Катакана (включая Halfwidth Katakana)
Как упоминалось в zawhtut, эта страница содержит ссылку для нескольких диапазонов Unicode. Чтобы суммировать диапазоны:
См. эту страницу для справки. Он содержит диапазоны катаканы, хираганы и кандзи юникода.
Хотя на этот вопрос уже есть ответ, этот пост в блоге, вероятно, является более полным.
Пожалуйста, посетите сайт и получите их метрики, но для потомков здесь есть копия-паста.
Хирагана
[\x3041-\x3096]
выражение кодовых точек Юникода:[\x3041-\x3096]
Свойство блока Юникод регулярное выражение:
\p{Hiragana}
ぁ あ ぃ い ぅ ぇ え ぉ が が が が く ぐ ぐ こ こ こ こ さ し じ ず ぞ ぞ ぞ た でぬび ぴ ふ ぶ ぷ べ ぺ ほ ほ ま ま ま む め も や ゅ ゅ ゅ ゅ ら り れ ゐ ゐ ゐ ゐ ゑ を ゛ ゛ ゛ ゛
Катакана (полная ширина)
[\x30A0-\x30FF]
выражение кодовых точек Юникода:[\x30A0-\x30FF]
Свойство блока Юникод регулярное выражение:
\p{Katakana}
゠ ァ ア ィ イ ウ ェ エ カ カ カ カ ギ ク ク ゲ ゲ ゲ ゲ ゴ ザ シ ス ソ ソ ソ ゾ テニヒ ビ ピ フ プ ヘ ベ ペ ペ ポ ポ ポ ム ム メ ャ ヤ ヤ ヤ ヤ ヨ ラ リ ワ ワ ワ ヰ ヰ ヸ ヸ ヸ ヸ ヹ ・ ヾ ヾ ヿ ヿ
Kanji
[\x3400-\x4DB5\x4E00-\x9FCB\xF900-\xFA6A]
точки Unicode регулярное выражение:[\x3400-\x4DB5\x4E00-\x9FCB\xF900-\xFA6A]
Свойство блока Юникод регулярное выражение:
\p{Han}
漢字 日本語 文字 言語 言葉 и т.д. Слишком много символов в списке.
Это регулярное выражение будет соответствовать всем кандзи, включая те, которые используются на китайском языке.
Кандзи радикалы
[\x2E80-\x2FD5]
выражение кодовых точек Unicode:[\x2E80-\x2FD5]
⺀ ⺁ ⺂ ⺃ ⺄ ⺆ ⺇ ⺈ ⺋ ⺋ ⺋ ⺋ ⺎ ⺏ ⺏ ⺒ ⺒ ⺒ ⺒ ⺔ ⺖ ⺗ ⺙ ⺝ ⺝ ⺝ ⺞ ⺦⺫ ⺲ ⺳ ⺴ ⺵ ⺶ ⺸ ⺹ ⺺ ⺽ ⺽ ⺽ ⺽ ⻀ ⻁ ⻁ ⻄ ⻄ ⻄ ⻄ ⻆ ⻈ ⻉ ⻋ ⻏ ⻏ ⻏ ⻐ ⻘⻝ ⻤ ⻥ ⻦ ⻧ ⻨ ⻪ ⻫ ⻬ ⻯ ⻯ ⻯ ⻯ ⻲ ⻳ ⻳ ⼂ ⼂ ⼂ ⼂ ⼄ ⼆ ⼇ ⼉ ⼍ ⼍ ⼍ ⼎ ⼖⼛ ⼢ ⼣ ⼤ ⼥ ⼦ ⼨ ⼩ ⼪ ⼭ ⼭ ⼭ ⼭ ⼰ ⼱ ⼱ ⼴ ⼴ ⼴ ⼴ ⼶ ⼸ ⼹ ⼻ ⼿ ⼿ ⼿ ⽀ ⽈⽍ ⽔ ⽕ ⽖ ⽗ ⽘ ⽚ ⽛ ⽜ ⽟ ⽟ ⽟ ⽟ ⽢ ⽣ ⽣ ⽦ ⽦ ⽦ ⽦ ⽨ ⽪ ⽫ ⽭ ⽱ ⽱ ⽱ ⽲ ⽺⽿ ⾆ ⾇ ⾈ ⾉ ⾊ ⾌ ⾍ ⾎ ⾑ ⾑ ⾑ ⾑ ⾔ ⾕ ⾕ ⾘ ⾘ ⾘ ⾘ ⾚ ⾜ ⾝ ⾟ ⾣ ⾣ ⾣ ⾤ ⾬⾱ ⾸ ⾹ ⾺ ⾻ ⾼ ⾽ ⾿ ⾿ ⿀ ⿃ ⿃ ⿃ ⿅ ⿆ ⿆ ⿉ ⿊ ⿊ ⿋ ⿌ ⿍ ⿍ ⿐ ⿑ ⿑ ⿒ ⿕ ⿕ ⿕
Катакана и пунктуация (половина ширины)
[\xFF5F-\xFF9F]
выражение кодовых точек Юникода:[\xFF5F-\xFF9F]
⦅ ⦆。 「」 ・ ヲ ァ ェ ェ ェ ェ ュ ョ ョ ア ア ア ア ウ オ カ ク シ シ シ ス ナハム メ モ ヤ ユ ヨ ラ リ ル レ ロ ワ ン ゙
Японские символы и пунктуация
[\x3000-\x303F]
выражение кодовых точек Юникода:[\x3000-\x303F]
、。 〃 〄 々 〇 〈〉 「「 「「 』【【〓 〓 〓 〓〕〗 〘〚〞 〞〞 〟〧〬 〳 〴 〵 〶 〷 〸 〹 〺 〻 〼 〽 〾 〿
Разные японские символы и символы
[\x31F0-\x31FF\x3220-\x3243\x3280-\x337F]
точки Юникода регулярное выражение:[\x31F0-\x31FF\x3220-\x3243\x3280-\x337F]
ㇰ ㇱ ㇲ ㇳ ㇴ ㇶ ㇷ ㇸ ㇻ ㇻ ㇻ ㇻ ㇾ ㇿ ㇿ ㈢ ㈢ ㈢ ㈢ ㈤ ㈦ ㈧ ㈩ ㈭ ㈭ ㈭ ㈮ ㈶㈻ ㉂ ㉃ ㊀ ㊁ ㊂ ㊄ ㊅ ㊆ ㊉ ㊉ ㊉ ㊉ ㊌ ㊍ ㊍ ㊐ ㊐ ㊐ ㊐ ㊒ ㊔ ㊕ ㊗ ㊛ ㊛ ㊛ ㊜ ㊤㊩ ㊰ ㊱ ㊲ ㊳ ㊴ ㊶ ㊷ ㊸ ㊻ ㊻ ㊻ ㊻ ㊾ ㊿ ㊿ ㋂ ㋂ ㋂ ㋂ ㋄ ㋆ ㋇ ㋉ ㋑ ㋑ ㋑ ㋒ ㋚㋟ ㋦ ㋧ ㋨ ㋩ ㋪ ㋬ ㋭ ㋮ ㋱ ㋱ ㋱ ㋱ ㋴ ㋵ ㋵ ㋸ ㋸ ㋸ ㋸ ㋺ ㋼ ㋽ ㌀ ㌄ ㌄ ㌄ ㌅ ㌍㌒ ㌙ ㌚ ㌛ ㌜ ㌝ ㌟ ㌠ ㌡ ㌤ ㌤ ㌤ ㌤ ㌧ ㌨ ㌨ ㌫ ㌫ ㌫ ㌫ ㌭ ㌯ ㌰ ㌲ ㌶ ㌶ ㌶ ㌷ ㌿㍄ ㍋ ㍌ ㍍ ㍎ ㍏ ㍑ ㍒ ㍓ ㍖ ㍖ ㍖ ㍖ ㍘ ㍙ ㍚ ㍝ ㍝ ㍝ ㍝ ㍟ ㍡ ㍢ ㍤ ㍨ ㍨ ㍨ ㍩ ㍱ ㍱㍻
Буквенно-цифровая и пунктуация (полная ширина)
[\xFF01-\xFF5E]
выражение кодовых точек Unicode:[\xFF01-\xFF5E]
) "# $ % &) () * + , -. : 0 1 2 3 4 6 7 : : : : < = >? A A B D E H H K L L M N U a b c d e f h h i l l l n o o r s s t u v v y z z {~ ~ ~
Что такое диапазон Юникода всех японских символов?
Посмотрите на страницу Набор данных для тестирования WiLI для письменного языковая идентификация, особенно таблица II. Число в скобке является частью языка, который вы записываете, с диапазоном кода Unicode (в десятичной форме).
Вы можете видеть, что 20 - 128 отлично улавливают английский и что все 3 блока важны для японцев, но все еще большие части отсутствуют.