Ответ 1
Я аспирант, занимающийся исследованиями распознавания речи. Это открытые исследовательские проблемы, и, к сожалению, я не знаю о пакетах с открытым исходным кодом, которые могут делать все это из коробки.
Если у вас есть некоторый опыт в реализации алгоритмов обработки сигналов или машинного обучения, вы можете попытаться найти научные статьи, используя некоторые из этих условий поиска:
- идентификация пола (иногда называемая гендерным признанием): прогнозирование пола говорящего из речевого высказывания
- возрастная идентификация: прогнозирование возраста говорящего
- идентификация динамиков: прогнозирование, из набора возможных динамиков, наиболее вероятный оратор в речевом произношении
- проверка динамика: принятие или отклонение высказывания как принадлежащего оратору (представьте себе систему авторизации типа "голос-запись" )
- дирижающая динамика: запись аудиофайла с несколькими файлами и маркировка, какие сегменты речи принадлежат динамику
- распознавание эмоций: предсказание эмоции спикера из речевого высказывания (очень новая область исследований).
Согласно http://cmusphinx.sourceforge.net/sphinx4/doc/Sphinx4-faq.html#speaker_identification, CMU Sphinx, который, вероятно, является ведущим распознавателем речи с открытым исходным кодом, не поддерживает идентификацию колонок (http://cmusphinx.sourceforge.net/sphinx4/doc/Sphinx4-faq.html#speaker_identification); Я сомневаюсь, что у него есть другие возможности, описанные выше.
Некоторые академические исследователи публикуют свой код в Интернете и/или могут захотеть поделиться им с вами. Поиск Google Scholar показывает много людей, которые написали магистерские или докторские диссертации, используя Sphinx, так что это может быть хорошим местом для начала.
Наконец, вы можете попытаться реализовать очень грубый алгоритм распознавания полов без попадания в само распознаватель речи, если вы знаете немного обработки сигнала. В основном, мужские и женские голоса отличаются своей основной частотой - согласно Википедии (http://en.wikipedia.org/wiki/Voice_frequency), мужские голоса составляют 85-180 Гц, а женщины голоса - 165 Гц-255 Гц. Вы можете использовать что-то вроде sox
для определения частотного спектра (используя что-то, называемое быстрым преобразованием Фурье) высказывания и классифицировать речь как "мужскую" или "женскую" в зависимости от некоторой статистической статистики, такой как средняя частота (см. http://classicalconvert.com/tag/sox/). Чтобы сделать эту работу надежной (т.е. Со многими динамиками, микрофонами или средами записи), есть много вещей, которые вы можете сделать. Я не уверен, могу ли я предсказать, сколько времени и усилий потребуется для получения 70% -ной точности, поскольку это будет зависеть от характера вашей задачи; мой смысл в том, что 90% + определенно будут очень тяжелыми.
Удачи!