Распознавание речи еще не решено

Комментарии: В последние годы распознавание речи достигло уровня, близкого к человеческому, проще говоря, его можно использовать, но еще много возможностей для улучшения, и некоторые проблемы до сих пор не решены.

Уровень ошибок распознавания речи резко снизился со времен глубокого обучения, но, тем не менее, он далек от распознавания речи на уровне человека. Распознавание речи также имеет много видов сбоев, и признание этих ошибок и принятие мер по их устранению имеет решающее значение для развития распознавания речи.

Количество ошибок распознавания речи снижается с каждым годом

Распознавание речи имеет смысл для человеческого прогресса, и улучшения в распознавании речи за последние два года были удивительными, но есть еще некоторые области, которые стоит улучшить.

Акценты и шум

Наиболее очевидными недостатками распознавания речи являются обработка акцентов [1] и фонового шума. Самая непосредственная причина заключается в том, что большая часть обучающих данных состоит из английских акцентов с высоким отношением сигнал/шум. Но обучающие данные не решат эту проблему сами по себе, существует множество языков с различными диалектами и акцентами, и сложно добиться аннотирования данных для всех разных ситуаций. Создание высококачественного распознавателя речи для распознавания английского языка с акцентом требует 5000 часов обучения аудио.

Красный - это частота ошибок в словах человеческого распознавания, синий - частота ошибок в словах системы Baidu Deep Speech 2 [2], некоторые акценты, машинное распознавание все еще не очень хорошо.

Что касается фонового шума, то нередко отношение сигнал-шум (отношение сигнал/шум, чем выше, тем тише) составляет всего -5 дБ в движущемся автомобиле. В этой ситуации людям легко понять содержание речи друг друга. Распознаватель речи также будет распознавать быстрее.Как видно из приведенного выше рисунка, в случае высокого отношения сигнал/шум способность распознавания машины такая же сильная, как у человека, но распознавание машиной низкого SNR (в случае шумов) работать не будет.

семантическая ошибка

Частота ошибок в словах обычно не является практической целью в системах распознавания речи. Что нас волнует, так этоКоэффициент семантических ошибок. Очень важно понимать смысл предложения.

Например, мы говорим "давайте встретимся во вторник", но машина может распознать это как "давайте встретимся сегодня". Иногда мы используем неправильное слово, но предложение понятно. Если машина может отказаться от "встретимся", она успешно предсказать как «давайте встретимся сегодня», «давайте встретимся во вторник» правильно.

WER (частота ошибок в словах) более 5% недопустима. Например, устойчивое среднее предложение составляет около 20 слов. Если частота ошибок в словах составляет 5%, это эквивалентно одной ошибке распознавания для 20 слов. Эквивалент каждого предложение неправильное. Если машинное распознавание речи может сделать это, даже если некоторые слова неверны, но смысл предложения остается прежним, это приемлемо.

Недавние исследователи Microsoft сравнили распространенные ошибки распознавателей речи человеческого и человеческого уровня [3]: они обнаружили, что машины с большей вероятностью путают «ух» и «угу», которые имеют совершенно разные значения, «ух» «Модальная частица, « угу» используется риторически.

Один канал, несколько источников звука

Хороший распознаватель разговорной речи должен уметь извлекать нужный звук в зависимости от того, кто говорит. Он также должен иметь возможность понимать звук, даже если различные источники перекрываются. Людям не нужно прикладывать рот к микрофону, чтобы точно записывать звук, а распознаватели речи должны работать где угодно.

Смена домена

Акценты и фоновый шум — это только две области, о которых следует помнить, есть много других изменений, о которых следует знать:

Смешивается из-за изменений окружающей среды.
Различия, возникающие из-за аппаратного обеспечения.
Декодеры для аудио и сжатия.
Частота выборки.
Возраст говорящего.

Большинство людей даже не заметят разницы между mp3 и обычным файлом wav, но они важны для распознавания речи.

контекст

Вы заметите, что процент ошибок взаимодействия человека с компьютером в тестах на самом деле довольно высок, подумайте об этом, если вы разговариваете с другом, и вы разговариваете с другом, и у вас есть одно неправильное слово из 20, вы все еще можете общаться, но машина не будет. .

Причина в том, что предложение зависит от контекста, и оно может лучше показать свое значение в конкретном контексте. Некоторые заметные различия между машинным распознаванием и распознаванием человеческой речи:

Обсуждаемая тема и предисловие.
Визуальные подсказки говорящего, включая выражение лица и движения губ.
Он сказал на теме предварительной подготовки.

В настоящее время (собственный) распознаватель речи Google Android может получить доступ к идентифицирующей информации ваших контактов (их именам) через ваш список контактов [4]. Google Map может сузить сферу деятельности в зависимости от географического положения и более точно фиксировать информацию о вашем пункте назначения [5].

При объединении разной информации распознавание речи будет более точным, но контекстно-зависимое распознавание речи только начинается.

Следующие пять лет

Есть еще много открытых и сложных проблем в распознавании речи. К ним относятся:

Расширены возможности речи в новом поле, с акцентом и в дальней зоне, с низким SNR (состоянием шума).
Распознавание речи интегрируется в контекст и соединяется с контекстом.
Разделение источников звука.
Частота семантических ошибок и инновационные методы оценки.
Сверхнизкая задержка и эффективный вывод.

Я с нетерпением жду решения вышеуказанных проблем с распознаванием речи через пять лет.

Примечания:

[1]Just ask anyone with a Scottish accent.
[2]These results are from Amodei et al, 2016. The accented speech comes from VoxForge. The noise-free and noisy speech comes from the third CHiMEchallenge.
[3]Stolcke and Droppo, 2017
[4]See Aleksic et al., 2015 for an example of how to improve contact name recognition.
[5]See Chelba et al., 2015 for an example of how to incorporate speaker location.

оригинал:Speech Recognition Is Not Solved

Ежедневное расширенное чтение:Как работает распознавание рукописных китайских иероглифов Apple?

Добро пожаловать, чтобы следовать:

Столбец "Аврора Ежедневно», чтение по три статьи на английском каждый день, ценность, размышление, резонанс.
Радиостанция NetEase Cloud Music "Aurora Daily" два раза в неделю слушает бред садовника.