Ответ 1
Вы можете использовать CMUSphinx, механизм распознавания речи с открытым исходным кодом, который поддерживает определение ключевых слов.
1) конвертировать аудио в требуемый формат - 16 кГц 16-битные моно файлы:
ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav
2) создайте и установите последние pocketsphinx и sphinxbase из http://github.com/cmusphinx
3) Загрузите общую акустическую модель en-us
4) запустите обнаружение:
pocketsphinx_continuous -infile file.wav -hmm en-us -kws_threshold 1e-40 -keyphrase "what you need to detect" -time yes
Он будет печатать обнаруженные ключевые слова и их время. Для лучшей точности обнаружения вы можете настроить kws_threshold.