Почему продвижение речи не продвигается?

Что так сложно в отношении того, что разработчики алгоритмов с трудом справляются с этим?

Неужели это сложно?

Мне сложно понять, почему эта тема настолько проблематична. Может ли кто-нибудь дать мне пример, почему это так?

Ответы

Ответ 1

Потому что, если людям трудно понять других людей с сильным акцентом, почему вы думаете, что компьютеры будут лучше в этом?

Ответ 2

Слуховая обработка - очень сложная задача. Человеческая эволюция создала настолько хорошую систему, что мы не понимаем, насколько она хороша. Если с вами одновременно разговаривают три человека, вы сможете сосредоточиться в одном сигнале и отказаться от других, даже если они громче. Шум тоже очень хорошо отбрасывается. Фактически, если вы слышите голос человека, воспроизводимый в обратном направлении, первые этапы слуховой системы отправят этот сигнал в другую область обработки, чем если бы это был реальный речевой сигнал, потому что система будет рассматривать его как "без голоса". Это пример выдающихся способностей людей.

Распознавание речи быстро продвигалось с 70-х годов, потому что исследователи изучали производство голоса. Это более простая система: возбужденные голосовые связки или нет, резонанс вокального тракта... это механическая система, которую легко понять. Основным продуктом этого подхода является cepstral analysis. Это привело к автоматическому распознаванию речи (ASR) для достижения приемлемых результатов. Но это неоптимальный подход. Разделение шума очень плохое, даже когда оно работает более или менее в чистых средах, оно не будет работать с громкой музыкой на заднем плане, а не с людьми.

Оптимальный подход зависит от понимания слуховой системы. Его первые этапы в улитке, нижнем колликуле... но и в мозге. И мы об этом не знаем. Это сложная смена парадигмы.

Профессор Хайнек Германский сравнил в статью текущего состояния исследования, когда люди хотели летать. Мы не знали, что такое секрет. Перья? крылья взмахивают? — пока мы не обнаружили силу Бернулли.

Ответ 3

Я помню, как читал, что у Microsoft была команда, работающая над распознаванием речи, и они назвали себя командой "Wreck a Nice Beach" (имя, предоставленное им их собственным программным обеспечением).

Чтобы превратить речь в слова, это не так просто, как отображение дискретных звуков, должно быть понимание контекста. Программное обеспечение должно иметь всю жизнь человеческого опыта, закодированного в нем.

Ответ 4

Эта проблема более общая, чем распознавание речи. Он существует также при обработке зрения, обработке естественного языка, искусственном интеллекте,...

На распознавание речи влияет проблема семантического разрыва:

Семантический разрыв характеризует разница между двумя описаниями объект с помощью другого лингвистического представления, например языков или символов. В компьютере наука, концепция актуальна когда обычная деятельность человека, наблюдения и задачи переносится в вычислительную представление

Между формой звуковой волны и текстовым словом большой пробел,

Между словом и его значением он еще больше...

Ответ 5

beecos iyfe peepl найти трудно удержаться uvver peepl с помощью strang acsent wie doo yoo fink compootrs wyll bee ani bettre ayt it?

Держу пари, что вам понадобилось полсекунды, чтобы понять, что, черт возьми, я печатаю, и все, что я делал, повторяло ответы Саймонса в другом "акценте". Мощность обработки просто еще не достигнута, но она попадает туда.

Ответ 6

Разнообразие в языке будет преобладающим фактором, затрудняя его. Диалекты и акценты сделают это более сложным. Кроме того, контекст. Книга была прочитана. Книга была красной. Как вы определяете разницу. Дополнительные усилия, необходимые для этого, облегчили бы просто набирать вещь в первую очередь.

Теперь, вероятно, для этого было бы больше усилий, если бы это было необходимо, но прогресс в других формах ввода данных шел так быстро, что это не было сочтено необходимым.

Конечно, есть области, где было бы здорово, даже очень полезно или полезно. Ситуации, в которых у вас руки полны или не могут смотреть на экран для ввода. Помощь инвалидам и т.д. Но большинство из них - нишевые рынки, у которых есть свои собственные решения. Возможно, некоторые из них больше работают над этим, но большинство сред, где используются компьютеры, не являются хорошими кандидатами для распознавания речи. Я предпочитаю, чтобы моя рабочая среда была спокойной. И бесконечная болтовня для компьютеров сделала бы перекрестные помехи реалистичной проблемой.

Кроме того, если вы не продиктовываете прозу компьютеру, любой другой тип ввода проще и быстрее использовать клавиатуру, мышь или сенсорный. Я однажды попробовал кодирование с использованием голосового ввода. Все это было болезненно от начала до конца.

Ответ 7

Потому что Lernout & Hauspie пошло на убыль:)

(извините, как бельгийца я не удержался)

Ответ 8

Основная проблема заключается в том, что человеческий язык неоднозначен. Поэтому, чтобы понять речь, компьютер (или человек) должен понимать контекст того, что говорится. Этот контекст на самом деле является физическим миром, в котором обитают оратор и слушатель. И ни одна программа ИИ пока не продемонстрировала, что она прекрасно понимает физический мир.

Ответ 9

Синтез речи очень сложный сам по себе - многие параметры объединяются для формирования речевой речи. Разрушить его сложно даже для людей - иногда вы обманываете одно слово для другого.

Ответ 10

В большинстве случаев мы понимаем людей на основе контекста. Таким образом, что персиклярное предложение находится в гармонии со всем разговором, к сожалению, компьютер имеет большой недостаток в этом смысле. Он просто пытается захватить слово не то, что между ним.

мы поняли бы, что иностранец, чей английский акцент очень низок, может догадываться, что он пытается сказать, вместо того, что он на самом деле говорит.

Ответ 11

Чтобы хорошо распознать речь, вам нужно знать, что люди имеют в виду, - и компьютеров еще нет.

Ответ 12

Вы сказали это сами, разработчики алгоритмов работают над этим... но язык и речь не являются алгоритмическими конструкциями. Они являются пиком развития очень сложной человеческой системы, включающей понятия, мета-концепции, синтаксис, исключения, грамматику, тональность, эмоции, нейроны, а также активность гормонов и т.д. И т.д.

Язык нуждается в высокоэвристическом подходе, и поэтому прогресс медленный, и перспективы могут быть не слишком оптимистичными.

Ответ 13

Я однажды задал подобный вопрос моему инструктору; я спросил его, что-то вроде того, что есть проблема при создании конвертера речи-текста. Среди ответов, которые он дал, он попросил меня произнести "р" и "б". Затем он сказал, что они отличаются в течение очень малого времени в начале, а затем они звучат одинаково. Я хочу сказать, что даже трудно понять, какой звук сделан, распознать голос будет еще сложнее. Также обратите внимание, что как только вы записываете голоса людей, это всего лишь номера, которые вы храните. Представьте, что вы пытаетесь найти метрики, такие как акцент, частоту и другие параметры, полезные для определения голоса из ничего, кроме ввода, например, матриц чисел. Компьютеры хороши при цифровой обработке и т.д., Но голос - это не "цифры". Вам нужно закодировать голос в цифрах, а затем выполнить все вычисления на них.

Ответ 14

Я ожидал бы некоторых успехов от Google в будущем из-за их сбора голосовых данных через 1-800-GOOG411

Ответ 15

Это не моя область, но я верю, что она продвигается, только медленно.

И я считаю, что ответ Саймона несколько верен в некотором роде: часть проблемы состоит в том, что ни один из двух человек не говорит одинаково с точки зрения шаблонов, которые компьютер запрограммировал на распознавание. Таким образом, трудно анализировать речь.

Ответ 16

Компьютеры не очень хорошо разбираются в обработке естественного языка. Они отлично подходят, но когда дело доходит до вывода, оно становится волосатым.

Затем, пытаясь понять одно и то же слово из сотен различных акцентов/перегибов, и это внезапно кажется не таким простым.

Ответ 17

Ну, у меня есть Google Voice Search на моем G1, и он работает потрясающе хорошо. Ответ в том, что поле продвигается, но вы просто не заметили!

Ответ 18

Если распознавание речи было возможно с существенно меньшим количеством MIPS, чем мозг человека, мы действительно могли поговорить с животными.

Эволюция не будет тратить все эти калории на серое вещество, если они не обязаны выполнять эту работу.

Ответ 19

Разговорный язык чувствителен к контексту, неоднозначен. Компьютеры не справляются с неоднозначными командами.

Ответ 20

Я не согласен с предположением в вопросе - я недавно был знаком с распознаванием речи Microsoft и впечатлен. Он может узнать мой голос через несколько минут и обычно правильно определяет общие слова. Он также позволяет добавлять новые слова. Это, безусловно, полезно для моих целей (понимание химии).

Различия между распознаванием токенов (слова) и пониманием их значения.

Я еще не знаю о других языках или операционных системах.

Ответ 21

Проблема в том, что существуют два типа механизмов распознавания речи. Обученные таким образом, такие как Дракон, хороши для диктовки. Они могут распознавать почти любой текст с довольно хорошей точностью, но требуют (а) обучения пользователя и (б) хорошего микрофона.

Речевые речевые двигатели, не зависящие от динамиков, чаще всего используются в телефонии. Они не требуют "обучения" пользователя, но должны заранее знать, какие слова ожидаются. Усилия по разработке приложений для создания этих грамматик (и устранения ошибок) огромны. Телефония ограничена пропускной способностью 4 кГц из-за исторических ограничений в нашей телефонной сети общего пользования. Это ограниченное качество звука значительно затрудняет способность речевых движков "слышать" то, что говорят люди. Цифры, такие как "шесть" или "семь", содержат звук ssss, который особенно сложно распознать для двигателей. Это означает, что распознавание строк цифр, одной из самых основных задач распознавания, является проблематичным. Добавьте в региональные акценты, где "девять" произносится как "нан" в некоторых местах, и точность действительно страдает.

Наилучшая надежда - это интерфейсы, сочетающие графику и речевую речь. Подумайте о приложении IPhone, которое вы можете контролировать своим голосом.