Как реализовать распознавание речи и текст в речь на С++?

Я хочу знать о различных методах для распознавания речи и преобразования текста в речь. Также, пожалуйста, дайте мне знать о любых ресурсах, таких как ссылки, учебники, электронные книги и т.д. На нем.

Какая наиболее эффективная техника для ее достижения?

Ответы

Ответ 1

Я собираюсь ответить на вопрос о распознавании речи (так как я мало знаю о тексте в речь):

http://ecx.images-amazon.com/images/I/4190SZC61CL._BO2,204,203,200_PIsitb-sticker-arrow-click,TopRight,35, -76_AA240_SH20_OU01_.jpg

Эта книга "Статистические методы распознавания речи" - это классика, которая объясняет математические основы распознавания статистической речи, написанные основателем этой области Фредериком Елинеком.

Самое важное понятие, которое вы должны знать, - Скрытые марковские модели. Люди используют их в распознавании речи на протяжении десятилетий. В недавнем подходе используется условные случайные поля, см. Документ (PDF) и связанный с ним программный инструментарий SCARF.

Сложно написать собственный распознаватель речи. Это активная исследовательская область с несколькими научными конференциями, например. ASRU, Interspeech, ICASSP.

Ответ 2

Оба являются очень широкими областями. О распознавании: в этой этой схеме вы найдете, как создать базовую автоматическую систему распознавания речи. Это никоим образом не близко к началу искусства, но это нечто достижимое и оно работает. Если вы хотите сделать что-то более продвинутое, прочитайте о кепстральных коэффициентах и Скрытых марковских моделях. Посмотрите HTK, это широко используемый инструментарий для скрытых марковских моделей.

О тексте в речь: я бы посмотрел на Festival.

Ответ 3

Есть несколько сфинксов. Основными активными являются pocketsphinx и sphinx4.

Sphinx4 написан на Java. Это лучше для настольных и веб-приложений.

Pocketsphinx записывается в C. Это лучше для встроенных устройств. Существуют приложения iphone/android, которые его используют.

Похоже, вы хотите pocketsphinx. Попробуйте этот учебник: http://www.speech.cs.cmu.edu/sphinx/tutorial.html

Лучше всего задавать вопросы pocketsphinx/sphinx4 на форуме CMF sourceforge.

Также вы должны предоставить больше информации, как то, что вы намереваетесь сделать.

Что касается книг, библейская речь распознавания речи - "Разговорный язык"

Ответ 4

Поскольку вы упомянули MS -

Вы должны просто взглянуть на Microsoft Speech. Он содержит много ресурсов для работы с речью, включая TTS и распознавание речи.

Ответ 5

Если вы ищете какой-то фактический код, посмотрите Sphinx, проект распознавания речи с открытым исходным кодом из CMU. Он не написан на С++, но если вас интересуют алгоритмы, он реализовал кучу вещей, из которых вы можете учиться. (Я бы тоже хотел прочесть @dehmann point: читать по скрытым марковским моделям.)

Ответ 6

Если вам интересно, что делать с распознаванием вашей фантазии, вы должны прочитать: Дизайн взаимодействия с голосом Рэнди Аллена Харриса

Он дает некоторые отличные советы о том, когда использовать Voice и как использовать его в приложении.