Вычисление недоумения языковой модели для классификации электронной почты
У меня есть набор функций из 500 наиболее часто встречающихся униграмм из состава электронных писем. Я использую это, чтобы классифицировать электронные письма, используя c5.0, исходя из наличия/отсутствия каждого из слов в тестовом письме.
Теперь мне нужно рассчитать недоумение терминов в наборе функций и использовать его для классификации электронных писем. Мне было интересно, есть ли у кого-нибудь опыт моделирования языка, и я знаю, как я собираюсь рассчитать недоумение модели, любая помощь будет замечательной!
Я должен добавить, что мне известно о инструментах, которые могут сделать это для меня автоматически, например, SRILM/CMU-LMtoolkit, но я предпочел бы сделать это сам с нуля в качестве своей части моего последнего проекта! Мне просто нужно напомнить о том, как начать... возможно, ссылку на "Руководство идиотов для расчета недоумений и классификации с недоумением"!!
Спасибо большое!
Ответы
Ответ 1
Этот упражнение курса CMU, похоже, имеет то, что вы хотите. Да, они рекомендуют использовать SRILM, но см. Раздел "Модель языка" - он указывает на раздел книги, учебник от Microsoft Research и презентацию для этого учебника.
Надеюсь, это поможет!
Ответ 2
Ссылка на "Современное языковое моделирование" Джошуа Гудмана (турника из MS Research):
http://research.microsoft.com/apps/pubs/default.aspx?id=68595
Ответ 3
Я понял, что прошло некоторое время с тех пор, как вы задали этот вопрос, но в случае, если вас все еще интересует более широкий охват недоумения (я имею в виду обработку естественного языка, распознавание речи, часть речевых меток и распознавание имен и т.д.), затем Я рекомендую вам пройти этот курс, который в настоящее время работает на Coursera.
Вот URL https://www.coursera.org/course/nlangp