Ответ 1
Вы хотите пометить POS в определенном домене? Большинство тегов общего назначения проходят обучение по новостному тексту. Как правило, они плохо работают, когда вы используете их в определенных доменах (таких как биомедицинский текст). Существуют и другие тегеры, специально обученные для таких доменов, такие как dTagger (java) для биомедицинского текста.
Для новостного текста Adwait Ratnaparkhi MXPOST очень хорош и является тем, который я бы рекомендовал.
Другие реализации Java включают:
- MontyLingua
- Berkeley Parser (Не совсем тег POS, но все полноразмерные парсеры обычно включают в себя тегеры POS. Синтаксические парсеры Google для Java и вы найдете много.)
- QTag
- LBJ
OpenNLP и Lingpipe как опубликовано другими плакатами также довольно приличные.
Информацию о состоянии дел по маркировке POS можно найти здесь. Как вы можете видеть LTAG-Spinal (также упоминается еще одним плакатом) на данный момент лучше, но вариации между различными теггерами не так много. Я сам не использовал LTAG.
Также обратите внимание, что базовая производительность для маркировки POS составляет около 90%. Исходный уровень означает: (а) пометить каждое слово наиболее частым тегом POS из лексикона и (b) пометить каждое неизвестное слово как существительное.