Документация по языковой модели ARPA
Где я могу найти документацию по формату модели языка ARPA?
Я разрабатываю приложение для простого распознавания речи с помощью механизма STT с карманным сфинксом. ARPA рекомендуется по соображениям производительности.
Я хочу понять, сколько я могу сделать, чтобы настроить мою модель языка для моих собственных потребностей.
Все, что я нашел, - это очень краткое описание формата ARPA:
Я начинаю работать с STT, и мне сложно обернуть вокруг него (n-граммы и т.д.). Я ищу более подробные документы. Что-то вроде документации по грамматике JSGF здесь:
http://www.w3.org/TR/jsgf/
Ответы
Ответ 1
На самом деле не так много говорить о формате, чем сказано в этих документах.
Кроме того, вы, вероятно, захотите подготовить текстовый файл с примерными предложениями и сгенерировать языковой файл на нем. Существует онлайн-версия, которая может сделать это для вас: lmtool
Ответ 2
Я нашел эту ссылку полезной: http://www.speech.sri.com/projects/srilm/manpages/ngram-format.5.html
В нем описывается n-грамм aka ARPA, а также формат Doug Paul.
Ответ 3
Вы можете дополнить эти документы с помощью этого технического отчета, который дает полный обзор сглаживания для моделирования языков: http://www.ee.columbia.edu/~stanchen/papers/h015a-techreport.pdf
Вы также найдете определения для моделей отсрочки и интерполированных моделей.