Анализатор для русского языка в Lucene и Lucene.Net.

Lucene очень плохо поддерживает русский язык.

RussianAnalyzer (часть lucene-contrib) имеет очень низкое качество.

Модуль RussianStemmer для Snowball еще хуже. Он не распознает русский текст в строках Unicode, по-видимому, предполагая, что вместо этого нужно использовать несколько странных сочетаний Unicode и KOI8-R.

Знаете ли вы лучшие решения?

Ответы

Ответ 1

Мой ответ, вероятно, слишком поздний, но для записи я нашел анализаторы из проекта AOT намного лучше, чем те, которые были отправлены с Lucene.

Ответ 3

Если все остальное не работает, используйте Sphinx

Ответ 5

Что красота с открытым исходным кодом. У вас есть исходный код, поэтому, если текущие реализации не работают для вас, вы всегда можете создать свой собственный или даже лучше, расширить существующие. Хорошим началом станет книга "Lucene in Action".