Поиск определенного устного слова в аудиофайлах

У меня около 3000+ аудиофайлов того же автора. Мне нужно переписать эти лекции, где автор сказал о конкретном слове.

Поэтому мне нужно программное решение, которое автоматически найдет все файлы, в которых указано конкретное слово. Могут быть некоторые вариации в отношении того, как было произнесено слово, поскольку аудиофайлы были произнесены более 15 лет.

Я попробовал поиск и узнал о Сфинксе. Но я не могу настроить его для использования в моем проекте. Любая помощь приветствуется. Пожалуйста,

Ответы

Ответ 1

Вы можете использовать CMUSphinx, механизм распознавания речи с открытым исходным кодом, который поддерживает определение ключевых слов.

1) конвертировать аудио в требуемый формат - 16 кГц 16-битные моно файлы:

 ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

2) создайте и установите последние pocketsphinx и sphinxbase из http://github.com/cmusphinx

3) Загрузите общую акустическую модель en-us

4) запустите обнаружение:

  pocketsphinx_continuous -infile file.wav -hmm en-us -kws_threshold 1e-40 -keyphrase "what you need to detect" -time yes

Он будет печатать обнаруженные ключевые слова и их время. Для лучшей точности обнаружения вы можете настроить kws_threshold.