Ответ 1
Мне действительно повезло с FreeTTS
Теперь я ищу структуру Java Text to Speech (TTS). Во время моих исследований я нашел несколько JSAPI1.0- (частично) -совместимых фреймворков, перечисленных на странице Mary, Say-It-Now). Я также отметил, что в настоящее время для JSAPI не существует ссылочной реализации.
Краткие тесты, которые я сделал для FreeTTS (первый из них на странице JSAPI impls), показывают, что далеко не просто читать простые и очевидные слова (примеры: ABC, доска). В настоящее время проводятся другие тесты.
И вот вопрос (6, собственно):
Заранее благодарим за ваши комментарии и предложения.
Мне действительно повезло с FreeTTS
В Google Translate есть секрет tts api: https://translate.google.com/translate_tts?ie=utf-8&tl=en&q=Hello%20World
Я использовал Мэри раньше, и меня очень впечатлило качество голосов. К сожалению, я не использовал никого из других.
Я использовал AT & T Natural Voices, который обеспечивает привязки JSAPI и MS SAPI. Он обеспечивает отличные качественные голоса, хороший "общий" словарь речи, многие элементы управления над произношением и несколько языков. Это немного дорого, но работает очень хорошо.
Я использовал его для чтения важной сенсорной телеметрии для водителей в приложении мобильного датчика. У нас не было жалоб на качество голоса. Он имел около 75% готовой точности с научными терминами и намного выше (может быть, 90% +) с нормальным диалогом. Мы получили до 99 +% точности, используя разметки (большинство ошибок были на научных терминах с необычными комбинациями фонем).
Это было немного тяжело для процессора (мы работали на эквивалентной машине Pentium-III, и это давало 50% -75% пикового процессора). Это использует встроенный речевой движок (совместимый с Windows, Linux и Mac) с интерфейсом Java.
Там огромное количество голосов и языков...
На самом деле, нет большого выбора:
Чистая Java:
Также существуют другие проприетарные программы, такие как:
Если ваше программное обеспечение является только Windows, вы можете использовать Microsoft Speech API.
Спасибо большое всем, трюк в источнике FreeTTS. Вкратце: если он выполняется как java -jar freetts.jar some-more-args-here
, он произносит меньшее количество слов, чем при выполнении в виде bin/Server.jar и bin/Client.jar.
Я использовал FreeTTS, но у меня была большая проблема с тем, чтобы голоса MBrola запускались на My MacbookPro. Я получал голоса MBrola для работы в Windows (больно) и Linux. Мне не повезло загружать любые другие голосовые пакеты на FreeTTS, что является позором, потому что поставленные голоса ужасны IMO. Вне этого у меня был небольшой успех с Cloudgarden, но это работает только на Windows AFAIK. Мне было бы интересно услышать другие успехи/неудачи в голосовых машинах, так как этот тип работы особенно сложный. Я тоже немного разбираюсь в Sphinx4. Я просто спустил JVXML (который, как представляется, был основан на Sphinx4) прошлой ночью, но не смог заставить его работать по какой-то странной причине.
Я помог Мэри. Я чувствую, что у него есть потенциал, если кто-то умнее меня отделяет голоса HMM от ядра (этим голосам не нужны большие наборы данных и звук в порядке). Я также пытаюсь сделать систему событий для freetts для отправки событий, когда он произносит слово. У меня был успех, но теперь он сломан в Linux. (вероятно, из-за ошибки таймера).
Мне не понравилось MarryTTS Он имеет многоязычный и понятный голос для понимания.
T конвертировать речь в текст, лучший вариант sphinx4-5prealpha. Я даю один большой палец, потому что он имеет настраиваемый, гибкий и изменяемый распознаватель и грамматик.