Ответ 1
Я уверен, что вы могли бы транслировать свои данные через внешнюю программу или предварительно обрабатывать свои данные с ней.
Если вы все равно выполняете тегирование, немецкий проект TreeTagger делает хорошую работу по метке и леммему одновременно.
EDIT: tchrist был прав, чтобы напомнить мне, что, каковы бы ни были ваши цели, если вы действительно ищете уникальные поверхностные формы ваших множественных существительных, то для дома, испеченное решение не собирается вообще его обрезать.
И если вы этого не сделаете, Neo_Me (опять же, в комментариях), похоже, нашел пакет, который происходит в R: пакет snowball (RStem, похоже, был прекращен. AFAICT, Snowball заменяет его.)
Это, конечно, реализация или обертка вокруг стримера Портера. Используйте на свой страх и риск, он будет пресекать такие вещи, как жены, или что-то в этом роде.
Мне просто пришло в голову, что R имеет CRAN. В поисках "леммы" я узнал о Java-зависимом пакете wordnet. Кажется, имеет функцию getLemma
. Весь пакет, скорее всего, излишний для вас, но все равно может достать вас куда-нибудь, если вы не найдете ничего лучшего.