Как преобразовать речь в текст?

Как я могу взять MP3 и преобразовать речь в текст?

У меня есть записанные заметки на конференции и на собраниях (есть один голос на записи, это мой голос). Я думал, что было бы проще и интеллектуально интересно преобразовать текст, используя речь в текстовые инструменты, а не просто расшифровывать вручную. Я знаю, что есть технологии, особенно для приложений VoIP, использующих Asterisk и Podcasts, но каковы они и как их использовать?

Ответы

Ответ 1

Открытый исходный код: CMU Sphinx

Shareware: http://www.e-speaking.com/ (Windows)

Коммерческий: Dragon NaturallySpeaking (Windows)

Ответ 2

.NET может сделать это с помощью пространства имен System.Speech.

Вам нужно будет сначала конвертировать в .wav или захватить звук в реальном времени с микрофона.

Подробности о реализации можно найти здесь: Транскрипция аудио с .NET

Ответ 3

Dragon NaturallySpeaking, похоже, поддерживает вход в MP3.

Если вы хотите версию с открытым исходным кодом (я думаю, что на этом основаны некоторые интеграционные проекты Asterisk).

Ответ 4

Поздняя вечеринка, поэтому ответьте на другие вопросы в будущем.

Достижения в области + менталитет Mozilla и повестка дня привели к этим двум проектам в этом направлении:

У последнего есть 12-гигабайтный набор данных для загрузки. Первый позволяет обучать модель с вашими собственными аудиофайлами в моем понимании.