Ответ 1
Мой ответ, вероятно, слишком поздний, но для записи я нашел анализаторы из проекта AOT намного лучше, чем те, которые были отправлены с Lucene.
Lucene очень плохо поддерживает русский язык.
RussianAnalyzer (часть lucene-contrib) имеет очень низкое качество.
Модуль RussianStemmer для Snowball еще хуже. Он не распознает русский текст в строках Unicode, по-видимому, предполагая, что вместо этого нужно использовать несколько странных сочетаний Unicode и KOI8-R.
Знаете ли вы лучшие решения?
Мой ответ, вероятно, слишком поздний, но для записи я нашел анализаторы из проекта AOT намного лучше, чем те, которые были отправлены с Lucene.
Я использовал http://code.google.com/p/russianmorphology/
Если все остальное не работает, используйте Sphinx
Проект http://code.google.com/p/russianmorphology/ переместился на https://github.com/AKuznetsov/russianmorphology, Пожалуйста, учтите новый хостинг этого проекта.
Что красота с открытым исходным кодом. У вас есть исходный код, поэтому, если текущие реализации не работают для вас, вы всегда можете создать свой собственный или даже лучше, расширить существующие. Хорошим началом станет книга "Lucene in Action".