Как работает токенизация и сопоставление образцов на китайском языке??
Этот вопрос включает в себя вычисления, а также знание китайского языка.
У меня есть китайские запросы, и у меня есть отдельный список фраз на китайском языке. Мне нужно найти, какой из этих запросов имеет любую из этих фраз.
По-английски это очень простая задача. Я вообще не понимаю китайский язык, его семантику, правила грамматики и т.д., И если кто-то на этом форуме, который также понимает китайский, может помочь мне с некоторым базовым пониманием и как сопоставление образцов для китайцев.
У меня есть основное представление о том, что в китайской единице (без какого-либо промежутка между пробелами) может означать более одного слова (это правильно?). Так есть ли какие-либо правила о том, как более одного слова объединяются между собой, чтобы выделяться как единое целое. Это сбивает с толку, потому что в китайском письме есть пробелы, но даже единица без пространства имеет в нем более одного слова.
Любые ссылки, объясняющие китайский язык с вычислительной точки зрения, сопоставление образцов и т.д., были бы очень полезными.
Ответы
Ответ 1
У меня есть основное представление о том, что в китайской единице (без какого-либо промежутка между пробелами) может означать более одного слова (это правильно?).
В китайских пространствах редко используются, например:
递归 (英语: Рекурсия), 又 譯為 遞 迴, 在 数学 与 计算机 科学 中, 是 指 在 函数 的 定义 中 使用 函数 自身 的 的.递归 一词 还 较 常用 于 描述 以 自 相似 方法 重复 事物 的 过程. 例如, 当 两面 镜子 相互 之间 近似 平行 时, 镜 中 嵌套 的 图像 是以 无限 递归 的 形式 出现 的.
Вы заметите, что кажутся просто пространствами, являются просто китайскими символами пунктуации, у которых просто больше отступов, чем обычно.
Итак, есть ли какие-либо правила о том, как более одного слова объединяются между собой, чтобы выделяться как единое целое. Это сбивает с толку, потому что в китайском письме есть пробелы, но даже единица без пространства имеет в нем более одного слова.
Подумайте об этом так: один китайский персонаж очень, очень похож на одно английское слово. Часто два или более символа нужно комбинировать, чтобы сформировать одно слово, и каждый отдельный символ может означать нечто совершенно иное в зависимости от контекста.
Чтобы значимо обозначить китайский текст, вам придется сегментировать слова, принимая во внимание.
См. Обработка китайского языка и обработка речи из группы Stanford NLP.
Ответ 2
Книга Кена Лунде Обработка информации CJKV, вероятно, стоит посмотреть.
Основной порядок слов - предмет - глагол - объект, но см. Также "Освещение темы" в http://en.wikipedia.org/wiki/Chinese_grammar