Есть ли какой-либо хороший открытый или свободно доступный китайский алгоритм сегментации?
Как сформулировано в вопросе, я ищу свободный и/или открытый текст-алгоритм сегментации для китайцев, я понимаю, что это очень трудная задача, так как существует множество неоднозначностей. Я знаю, что есть API Google, но это скорее черный ящик, т.е. Не так много информации о том, что он делает, проходя через.
Ответы
Ответ 1
Ключевое слово text-segmentation for Chinese
должно быть 中文分词
на китайском языке.
Хороший и активный алгоритм текстовой сегментации с открытым исходным кодом:
- 盘古 分 词 (сегмент Pan Gu):
C#
, Snapshot
- ik-analyzer:
Java
- ICTCLAS:
C/C++, Java, C#
, Demo
- NlpBamboo:
C, PHP, PostgreSQL
- HTTPCWS: на основе
ICTCLAS
, Demo
- mmseg4j:
Java
- fudannlp:
Java
, Demo
- smallseg:
Python, Java
, Demo
- nseg: NodeJS
- mini-segmenter:
python
Другое
Пример
Ответ 2
Стенфордский сегмент с использованием CRF-алгоритма.
Это под GPL
ссылка: http://nlp.stanford.edu/software/segmenter.shtml
Ответ 3
ICU содержит сведения об универсальной сегментации текста - http://userguide.icu-project.org/boundaryanalysis
Ответ 4
Cursory Googling для "текстовой сегментации с китайским открытым исходным кодом" раскрывает эту библиотеку, которая может быть или не быть тем, что вы ищете...:
http://sourceforge.net/projects/ktdictseg/
Результаты намекают на несколько альтернативных мест для поиска библиотеки с открытым исходным кодом:
- Поиск реализации поиска с открытым исходным кодом, которая может работать с китайцами.
- Поиск реализации обнаружения плагиата с открытым исходным кодом, который может быть с китайским.