Есть ли какой-либо хороший открытый или свободно доступный китайский алгоритм сегментации?

Как сформулировано в вопросе, я ищу свободный и/или открытый текст-алгоритм сегментации для китайцев, я понимаю, что это очень трудная задача, так как существует множество неоднозначностей. Я знаю, что есть API Google, но это скорее черный ящик, т.е. Не так много информации о том, что он делает, проходя через.

Ответы

Ответ 1

Ключевое слово text-segmentation for Chinese должно быть 中文分词 на китайском языке.

Хороший и активный алгоритм текстовой сегментации с открытым исходным кодом:

盘古分词 (сегмент Pan Gu): C#, Snapshot
ik-analyzer: Java
ICTCLAS: C/C++, Java, C#, Demo
NlpBamboo: C, PHP, PostgreSQL
HTTPCWS: на основе ICTCLAS, Demo
mmseg4j: Java
fudannlp: Java, Demo
smallseg: Python, Java, Demo
nseg: NodeJS
mini-segmenter: python

Другое

Код Google: http://code.google.com/query/#q= 中文分词
OSChina (Open Source China)

Пример

Google Chrome (Chromium): src, cc_cedict.txt (73,145 Chinese words/pharases)
- В text field или textarea Google Chrome с китайскими предложениями нажмите Ctrl + ← или Ctrl + →
- Double click on 中文分词指的是将一个汉字序列切分成一个一个单独的词

Ответ 2

Стенфордский сегмент с использованием CRF-алгоритма.

Это под GPL

ссылка: http://nlp.stanford.edu/software/segmenter.shtml

Ответ 3

ICU содержит сведения об универсальной сегментации текста - http://userguide.icu-project.org/boundaryanalysis

Ответ 4

Cursory Googling для "текстовой сегментации с китайским открытым исходным кодом" раскрывает эту библиотеку, которая может быть или не быть тем, что вы ищете...:

http://sourceforge.net/projects/ktdictseg/

Результаты намекают на несколько альтернативных мест для поиска библиотеки с открытым исходным кодом:

Поиск реализации поиска с открытым исходным кодом, которая может работать с китайцами.
Поиск реализации обнаружения плагиата с открытым исходным кодом, который может быть с китайским.