Как получить звук из микрофона в python и обрабатывать его на лету?
Привет,
Я пытаюсь написать программу на Python, которая будет печатать строку каждый раз, когда она получает кран в микрофоне. Когда я говорю "нажмите", я имею в виду громкий внезапный шум или что-то подобное.
Я искал в SO и нашел этот пост: Узнав тон звука
Я думаю, что библиотека PyAudio будет соответствовать моим потребностям, но я не совсем уверен, как заставить мою программу ждать аудиосигнала (мониторинг микрофона в реальном времени), и когда у меня есть способ его обработки (мне нужно использовать Преобразование Фурье, как это было указано в вышеприведенном сообщении)?
Заранее спасибо за любую помощь, которую вы могли бы мне дать.
Ответы
Ответ 1
Если вы используете LINUX, вы можете использовать pyALSAAUDIO.
Для окон мы имеем PyAudio, а также есть библиотека под названием SoundAnalyse.
Я нашел пример для Linux здесь:
#!/usr/bin/python
## This is an example of a simple sound capture script.
##
## The script opens an ALSA pcm for sound capture. Set
## various attributes of the capture, and reads in a loop,
## Then prints the volume.
##
## To test it out, run it and shout at your microphone:
import alsaaudio, time, audioop
# Open the device in nonblocking capture mode. The last argument could
# just as well have been zero for blocking mode. Then we could have
# left out the sleep call in the bottom of the loop
inp = alsaaudio.PCM(alsaaudio.PCM_CAPTURE,alsaaudio.PCM_NONBLOCK)
# Set attributes: Mono, 8000 Hz, 16 bit little endian samples
inp.setchannels(1)
inp.setrate(8000)
inp.setformat(alsaaudio.PCM_FORMAT_S16_LE)
# The period size controls the internal number of frames per period.
# The significance of this parameter is documented in the ALSA api.
# For our purposes, it is suficcient to know that reads from the device
# will return this many frames. Each frame being 2 bytes long.
# This means that the reads below will return either 320 bytes of data
# or 0 bytes of data. The latter is possible because we are in nonblocking
# mode.
inp.setperiodsize(160)
while True:
# Read data from device
l,data = inp.read()
if l:
# Return the maximum of the absolute value of all samples in a fragment.
print audioop.max(data, 2)
time.sleep(.001)
Ответ 2
... и когда я получил один способ его обработки (мне нужно использовать преобразование Фурье, как было указано в вышеприведенном сообщении)?
Если вы хотите "нажать", тогда я думаю, что вас интересует амплитуда больше, чем частота. Поэтому преобразования Фурье, вероятно, не полезны для вашей конкретной цели. Вероятно, вы хотите сделать текущее измерение кратковременной (скажем, 10 мс) амплитуды входа и определить, когда она внезапно увеличивается на определенную дельту. Вам нужно будет настроить параметры:
- что такое "кратковременное" измерение амплитуды
- Что такое увеличение дельты, которое вы ищете
- как быстро должно произойти изменение треугольника
Хотя я сказал, что вас не интересует частота, вы можете сначала сделать некоторую фильтрацию, чтобы отфильтровать особенно низкочастотные и высокочастотные компоненты. Это может помочь вам избежать некоторых "ложных срабатываний". Вы можете сделать это с помощью цифрового фильтра FIR или IIR; Фурье не требуется.