Ответ 1
Кстати, я недавно наткнулся на OpenCalais, который, похоже, обладает функциональностью, которую я ухаживал.
Я ищу простую, но "достаточно хорошую" библиотеку именных имен и словарей для Java, я ищу для обработки электронных писем и документов и извлечения некоторой "базовой информации", например: Имена, места, адреса и даты
Я смотрю вокруг, и большинство из них, похоже, находятся на тяжелой стороне и полном проекте NLP.
Любые рекомендации?
Кстати, я недавно наткнулся на OpenCalais, который, похоже, обладает функциональностью, которую я ухаживал.
Возможно, вам захочется взглянуть на один из моих более ранних ответов на аналогичную проблему.
Кроме того, большинство более легких NER-систем сильно зависят от используемого домена. Например, вы найдете множество инструментов и документов о биомедицинских системах NER. В дополнение к моему предыдущему сообщению (которое уже содержит мою основную рекомендацию, если вы хотите сделать NER), вот еще несколько инструментов, которые вы можете изучить:
Еще одно замечание: вы не уйдете без токенизации на входе. Токенизация естественного языка немного нетривиальна, поэтому я предлагаю вам использовать панель инструментов, которая делает это для вас.
Возможно, вы захотите попробовать Alchemy API. Это похоже на Open Calais.
Для грамматики НЛП вы можете проверить http://code.google.com/p/graph-expression/ и http://gate.ac.uk/