Как реализовать распознавание речи и текст в речь на С++?
Я хочу знать о различных методах для распознавания речи и преобразования текста в речь.
Также, пожалуйста, дайте мне знать о любых ресурсах, таких как ссылки, учебники, электронные книги и т.д. На нем.
Какая наиболее эффективная техника для ее достижения?
Ответы
Ответ 1
Я собираюсь ответить на вопрос о распознавании речи (так как я мало знаю о тексте в речь):
http://ecx.images-amazon.com/images/I/4190SZC61CL._BO2,204,203,200_PIsitb-sticker-arrow-click,TopRight,35, -76_AA240_SH20_OU01_.jpg
Эта книга "Статистические методы распознавания речи" - это классика, которая объясняет математические основы распознавания статистической речи, написанные основателем этой области Фредериком Елинеком.
Самое важное понятие, которое вы должны знать, - Скрытые марковские модели. Люди используют их в распознавании речи на протяжении десятилетий. В недавнем подходе используется условные случайные поля, см. Документ (PDF) и связанный с ним программный инструментарий SCARF.
Сложно написать собственный распознаватель речи. Это активная исследовательская область с несколькими научными конференциями, например. ASRU, Interspeech, ICASSP.
Ответ 2
Оба являются очень широкими областями.
О распознавании: в этой этой схеме вы найдете, как создать базовую автоматическую систему распознавания речи. Это никоим образом не близко к началу искусства, но это нечто достижимое и оно работает. Если вы хотите сделать что-то более продвинутое, прочитайте о кепстральных коэффициентах и Скрытых марковских моделях. Посмотрите HTK, это широко используемый инструментарий для скрытых марковских моделей.
О тексте в речь: я бы посмотрел на Festival.
Ответ 3
Есть несколько сфинксов. Основными активными являются pocketsphinx и sphinx4.
Sphinx4 написан на Java. Это лучше для настольных и веб-приложений.
Pocketsphinx записывается в C. Это лучше для встроенных устройств. Существуют приложения iphone/android, которые его используют.
Похоже, вы хотите pocketsphinx. Попробуйте этот учебник:
http://www.speech.cs.cmu.edu/sphinx/tutorial.html
Лучше всего задавать вопросы pocketsphinx/sphinx4 на форуме CMF sourceforge.
Также вы должны предоставить больше информации, как то, что вы намереваетесь сделать.
Что касается книг, библейская речь распознавания речи - "Разговорный язык"
Ответ 4
Поскольку вы упомянули MS -
Вы должны просто взглянуть на Microsoft Speech. Он содержит много ресурсов для работы с речью, включая TTS и распознавание речи.
Ответ 5
Если вы ищете какой-то фактический код, посмотрите Sphinx, проект распознавания речи с открытым исходным кодом из CMU. Он не написан на С++, но если вас интересуют алгоритмы, он реализовал кучу вещей, из которых вы можете учиться. (Я бы тоже хотел прочесть @dehmann point: читать по скрытым марковским моделям.)
Ответ 6
Если вам интересно, что делать с распознаванием вашей фантазии, вы должны прочитать:
Дизайн взаимодействия с голосом Рэнди Аллена Харриса
Он дает некоторые отличные советы о том, когда использовать Voice и как использовать его в приложении.