Ответ 1
EnergyDetector
Для обнаружения голосовой активности я использовал программу EnergyDetector инструментария MISTRAL (был LIA_RAL), основанный на ALIZE.
Он работает с файлами функций, а не с аудиофайлами, поэтому вам нужно извлечь энергию сигнала. Обычно я извлекаю кепстральные функции (MFCC) с параметром log-energy, и я использую этот параметр для VAD. Вы можете использовать sfbcep`, служебную часть SPro инструментария обработки сигналов следующим образом:
sfbcep -F PCM16 -p 19 -e -D -A input.wav output.prm
Он выберет 19 MFCC + log-energy коэффициент + дельта-коэффициенты первого и второго порядка. Коэффициент энергии - 19, вы укажете, что в файле конфигурации EnergyDetector.
Затем вы запускаете EnergyDetector следующим образом:
EnergyDetector --config cfg/EnergyDetector.cfg --inputFeatureFilename output
Если вы используете файл конфигурации, который вы найдете в конце ответа, вам нужно поместить output.prm
в prm/
, и вы найдете сегментацию в lbl/
.
В качестве ссылки я присоединяю конфигурационный файл EnergyDetector:
*** EnergyDetector Config File
***
loadFeatureFileExtension .prm
minLLK -200
maxLLK 1000
bigEndian false
loadFeatureFileFormat SPRO4
saveFeatureFileFormat SPRO4
saveFeatureFileSPro3DataKind FBCEPSTRA
featureServerBufferSize ALL_FEATURES
featureServerMemAlloc 50000000
featureFilesPath prm/
mixtureFilesPath gmm/
lstPath lst/
labelOutputFrames speech
labelSelectedFrames all
addDefaultLabel true
defaultLabel all
saveLabelFileExtension .lbl
labelFilesPath lbl/
frameLength 0.01
segmentalMode file
nbTrainIt 8
varianceFlooring 0.0001
varianceCeiling 1.5
alpha 0.25
mixtureDistribCount 3
featureServerMask 19
vectSize 1
baggedFrameProbabilityInit 0.1
thresholdMode weight
CMU Sphinx
Программное обеспечение распознавания речи CMU Sphinx содержит встроенный VAD. Он написан на C, и вы можете его взломать, чтобы создать файл ярлыков для вас.
Недавно добавлена поддержка GStreamer. Это означает, что вы можете использовать VAD в конвейере GStreamer. См. Использование PocketSphinx с GStreamer и Python → Элемент vader
Другие VAD
Я также использовал модифицированную версию кодека AMR1, который выводит файл с речевой/нечетной классификацией, но я не могу найти его источники в Интернете, извините.