Обзор Java: обзор текста в речь

Теперь я ищу структуру Java Text to Speech (TTS). Во время моих исследований я нашел несколько JSAPI1.0- (частично) -совместимых фреймворков, перечисленных на странице Mary, Say-It-Now). Я также отметил, что в настоящее время для JSAPI не существует ссылочной реализации.

Краткие тесты, которые я сделал для FreeTTS (первый из них на странице JSAPI impls), показывают, что далеко не просто читать простые и очевидные слова (примеры: ABC, доска). В настоящее время проводятся другие тесты.

И вот вопрос (6, собственно):

Какая из основанных на Java платформ TTS вы использовали?
Какие, по вашему мнению, способны читать самую большую словобазу?
Как насчет качества их голоса?
Как насчет их производительности?
Какие не-Java-фреймворки с привязками Java находятся на сцене?
Какие из них вы бы порекомендовали?

Заранее благодарим за ваши комментарии и предложения.

Ответы

Ответ 1

Мне действительно повезло с FreeTTS

Ответ 2

В Google Translate есть секрет tts api: https://translate.google.com/translate_tts?ie=utf-8&tl=en&q=Hello%20World

Ответ 3

Я использовал Мэри раньше, и меня очень впечатлило качество голосов. К сожалению, я не использовал никого из других.

Ответ 4

Я использовал AT & T Natural Voices, который обеспечивает привязки JSAPI и MS SAPI. Он обеспечивает отличные качественные голоса, хороший "общий" словарь речи, многие элементы управления над произношением и несколько языков. Это немного дорого, но работает очень хорошо.

Я использовал его для чтения важной сенсорной телеметрии для водителей в приложении мобильного датчика. У нас не было жалоб на качество голоса. Он имел около 75% готовой точности с научными терминами и намного выше (может быть, 90% +) с нормальным диалогом. Мы получили до 99 +% точности, используя разметки (большинство ошибок были на научных терминах с необычными комбинациями фонем).

Это было немного тяжело для процессора (мы работали на эквивалентной машине Pentium-III, и это давало 50% -75% пикового процессора). Это использует встроенный речевой движок (совместимый с Windows, Linux и Mac) с интерфейсом Java.

Там огромное количество голосов и языков...

Ответ 5

На самом деле, нет большого выбора:

Фестиваль, самый старый. Написано в С++, но имеет привязки к Java.
eSpeak, qucik и простой, используемый Google Translate
MBROLA

Чистая Java:

FreeTTS, код которого был перенесен с фестиваля, а затем был открыт с открытым исходным кодом, и разработка была остановлена.
MaryTTS - более мощный и готовый к производству.

Также существуют другие проприетарные программы, такие как:

Acapella
Вокализатор Nuance

Если ваше программное обеспечение является только Windows, вы можете использовать Microsoft Speech API.

Ответ 6

Спасибо большое всем, трюк в источнике FreeTTS. Вкратце: если он выполняется как java -jar freetts.jar some-more-args-here, он произносит меньшее количество слов, чем при выполнении в виде bin/Server.jar и bin/Client.jar.

Ответ 7

Я использовал FreeTTS, но у меня была большая проблема с тем, чтобы голоса MBrola запускались на My MacbookPro. Я получал голоса MBrola для работы в Windows (больно) и Linux. Мне не повезло загружать любые другие голосовые пакеты на FreeTTS, что является позором, потому что поставленные голоса ужасны IMO. Вне этого у меня был небольшой успех с Cloudgarden, но это работает только на Windows AFAIK. Мне было бы интересно услышать другие успехи/неудачи в голосовых машинах, так как этот тип работы особенно сложный. Я тоже немного разбираюсь в Sphinx4. Я просто спустил JVXML (который, как представляется, был основан на Sphinx4) прошлой ночью, но не смог заставить его работать по какой-то странной причине.

Ответ 8

Я помог Мэри. Я чувствую, что у него есть потенциал, если кто-то умнее меня отделяет голоса HMM от ядра (этим голосам не нужны большие наборы данных и звук в порядке). Я также пытаюсь сделать систему событий для freetts для отправки событий, когда он произносит слово. У меня был успех, но теперь он сломан в Linux. (вероятно, из-за ошибки таймера).

Ответ 9

Мне не понравилось MarryTTS Он имеет многоязычный и понятный голос для понимания.

T конвертировать речь в текст, лучший вариант sphinx4-5prealpha. Я даю один большой палец, потому что он имеет настраиваемый, гибкий и изменяемый распознаватель и грамматик.