Ответ 1
Проверьте, работает ли это или нет. Я нашел этот веб-сайт, который, кажется, перечисляет все символы в Юникоде, которые могут быть использованы в японском тексте.
Соответствующее регулярное выражение (для одиночного символа) будет:
/[\u3000-\u303f\u3040-\u309f\u30a0-\u30ff\uff00-\uff9f\u4e00-\u9faf\u3400-\u4dbf]/
-------------_____________-------------_____________-------------_____________
Punctuation Hiragana Katakana Full-width CJK CJK Ext. A
Roman/ (Common & (Rare)
Half-width Uncommon)
Katakana
Диапазоны (как указано на сайте):
-
3000 - 303f
: пунктуация в японском стиле -
3040 - 309f
: Хирагана -
30a0 - 30ff
: Катакана -
ff00 - ff9f
: Полноразмерные римские символы и полуширина Катакана -
4e00 - 9faf
: унифицированные идеограммы CJK - общий и необычный кандзи -
3400 - 4dbf
: унифицированные идеограммы CJK Расширение A - редкое кандзи
Я немного изменил диапазоны:
- Я изменил с
ff00 - ffef
наff00 - ff9f
для полноразмерных римских символов и полуширины Katakana. Кодовые точки изffa0 - ffdc
содержат символы полуширины Hangul, которые не то, что вы хотите. Возможно, вы захотите повторно добавить кодовые точки изffe0 - ffef
, но в основном это полутоны или символы полной ширины валюты.
Вы можете проверить сайт и снять любой диапазон, который вам не нужен, или убедиться, что он не появится на вашем входе.