Распознавание голоса Java

Есть ли у кого-нибудь, кто имеет опыт работы с любым открытым исходным кодом или относительно дешевым API распознавания речи для java? Я в значительной степени ищу что-то, что превратит произносимые слова в текст.

Из страницы распознавания речи Java на солнце, кажется, что это нечто, что скорее мертво. Мои требования - это то, что по крайней мере работает на linux.

Кто-нибудь может что-то рекомендовать? Чистая java была бы бонусом, иначе можно было бы рассмотреть решение на базе Linux. А поскольку это домашний проект... тем дешевле, чем лучше.

  • Изменить

CMU Sphinx Как отметил Амит, CMU Sphinx http://cmusphinx.sourceforge.net/html/cmusphinx.php Моя проблема - это массовый уровень ошибок в сообщениях. Обучение похоже на проект само по себе, я надеюсь собрать силы, чтобы попробовать это в эти выходные.

IBM ViaVoice
В течение 2004 года в новостях появились сообщения о Via Voice, созданный с открытым исходным кодом. Кажется, пресс-релиз был преждевременным, и этого никогда не было. В какой-то момент VIA Voice был выпущен для Linux, но кажется, что они остановились. Все, что, кажется, осталось на веб-сайте IBM, ViaVoice embedded.

IBM Websphere Voice
Я предполагаю, что именно поэтому ViaVoice (рабочий стол) кажется прекращенным. IBM создала это коммерческое решение, которое будет стоить больше, чем рука и нога. И только использование этого приведет к тому, что вы оставили, по крайней мере, после моего опыта работы с websphere и их IDE.

Nuance
Кажется, они все равно могут создавать продукты для Linux. Но я думаю, что они потерялись и последовали за IBM на серверный рынок. Я не уверен в этом, их веб-сайт не так дружелюбен в поиске полезной информации.

Открытый ум/Свободная речь
Эти ребята продолжают менять название своего проекта. Наверное, какая-то голодная компания держит их в опасности, но я не знаю. Проект выглядит немного мертвым.

Я мог бы попробовать тренировать Сфинкса в эти выходные, чтобы посмотреть, хочет ли он быть друзьями. В еще худшем случае я буду рассматривать использование речевого решения Microsoft. В прошлом он работал хорошо для меня, но это не отличное решение для Linux. Я мог бы использовать его через вино, но тогда у меня будет два отдельных сервера... грязный беспорядок.

О, и что кажется хорошим местом для посещения для голоса/речи SpeechTechMag. У них есть "Anual Reference", в котором есть список компаний, которые каким-то образом связаны с голосом и речью.

Ответы

Ответ 2

sphinx на сегодняшний день является лучшим вариантом, если вы находитесь в бюджете.  однако также имеет огромное значение то, какие модели вы используете, как вы их настраиваете и как настраиваете свой источник звука. абсолютно все должно соответствовать, иначе это просто не сработает. учитывая проблему, которую вы описали, я готов сделать ставку на значительную сумму, которую у вас есть, у вас есть ваши модели, и ваш микрофон неправильно откалиброван. также, если у вас есть акцент, это, вероятно, не сработает - это не проблема с декодером, а с акустическими моделями - если в данные тренировки не был включен ни один голос с акцентом, похожий на ваш, вы получите плохие результаты.

сказал, посмотрели ли вы на страницу с открытым исходным кодом?

http://www.speech.cs.cmu.edu/sphinx/models/

в зависимости от того, что вы пытаетесь сделать, вы должны иметь возможность получить около 90% точности во время свободной речи с 16-кГц WSJ-моделями и NVP-Gigaword LM. Однако я предупреждаю, что ASR является крупным делом и еще не достиг статуса товара.

Ответ 3

вы можете скачать vPass (голосовой пароль) из http://www.basic-signalprocessing.com.

Для (vText) голоса в текст, я могу отправить файл vText.jar на ваш адрес электронной почты. Pls уведомить [email protected]

Компоненты предназначены для Java и языка .Net. Период распознавания составляет 5 секунд. VPass хорошо протестирован. VText не является, но тем не менее новым, почему он еще не упакован.

С уважением, Andreas

Ответ 4

Я искал то же самое в течение нескольких дней. До сих пор я нашел Sphinx4 и FreeTTS. Оба являются реализациями Java, и Sphinx кажется, что он довольно часто обновляется в отличие от FreeTTS. Единственная проблема, с которой я сталкиваюсь, заключается в том, что у Sphinx возникают проблемы с пониманием меня в офисной среде, и мне нужно решение для среды хранилища.

Ответ 5

Моя группа закончила мини-программу на Java, чтобы распознавать разговорные цифры, используя Sphinx.