Сравнение основных акустических моделей
содержание
Основные методы акустического моделирования
методы языкового моделирования
Обзор
Моделирование распознавания речи — неотъемлемая часть распознавания речи, поскольку разные методы моделирования обычно означают разную производительность распознавания, поэтому оптимизация для каждой группы распознавания речи находится в центре внимания. Именно поэтому бесконечным потоком возникают модели распознавания речи, среди которых языковая модель включает N-граммы, RNNLM и т. д., а акустическая модель охватывает модели HMM, DNN, RNN и другие...
Проще говоря, задача акустической модели — описать физические изменения речи, тогда как языковая модель выражает лингвистические знания, содержащиеся в естественном языке. В этой статье Чен Вейлай, глава отдела речевых технологий Центра голосового взаимодействия Sogou, поделится с вами эволюцией технологии моделирования распознавания речи в условиях нынешней волны искусственного интеллекта, надеясь помочь вам прояснить основной контекст моделирования распознавания и думая за этим.
Sogou Zhiyin Engine – это интеллектуальная голосовая технология, разработанная Sogou и ориентированная на естественное взаимодействие. Она была официально выпущена 3 августа 2016 года. Эта технология объединяет распознавание голоса, семантическое понимание, голосовое взаимодействие и предоставление услуг. Функция позволяет не только слушать и говорить, но также понимать и думать.Эта статья объяснит вам использование технологии моделирования распознавания речи в движке Zhiyin.
Рисунок 1 Двигатель Sogou Zhiyin
Базовые концепты
речевая рамка
Принимая во внимание краткосрочные стабильные характеристики речи, речевой сигнал необходимо подвергнуть оконной обработке и разделить на кадры во время предварительной обработки сигнала, а признаки распознавания извлекаются по кадрам, см. рисунок 2 для подробностей. (Примечание редактора: покадровые особенности речи извлекаются покадрово для моделирования акустической модели.)
Рисунок 2 Разделение речевых кадров
система распознавания голоса
После обработки голосового сигнала с помощью предварительной обработки сигнала и обнаружения конечной точки функции голоса извлекаются кадр за кадром.Традиционные типы функций включают функции MFCC, PLP, FBANK и др. Извлеченные функции отправляются в декодер и используются в акустическая модель, языковая модель и словарь произношения. Под общим руководством найдите наиболее подходящую последовательность слов в качестве вывода результата распознавания. Общий процесс показан на рисунке 3. Формула распознавания показана на рис. и звуки, в которых моделирование акустической модели Устройство обычно выбирает модель трифона, взяв в качестве примера «Голос Sogou»,
sil-s+ou1 s-ou1+g ou1-g+ou3 g-ou3+y ou3-y+u3 y-u3+y u3-y+in1 y-in1+sil
Рис. 3. Схема работы системы распознавания речи.
Рисунок 4 Принцип распознавания речи
Следует отметить, что входной вектор признаков X представляет признаки речи.
Основные методы акустического моделирования
В последние годы, с развитием глубокого обучения, акустическая модель распознавания речи HMM (скрытая модель Маркова), которая использовалась почти 30 лет, постепенно была заменена DNN (обычно называемой глубокой нейронной сетью), а точность модели также быстро изменилась.Можно увидеть, что технология акустического моделирования имеет очевидные изменения в трех измерениях модуля моделирования, структуры модели и процесса моделирования, как показано на рисунке 5:
Рис. 5. Краткий обзор эволюции акустического моделирования.
Среди них способность глубокой нейронной сети к обучению суперфункциям значительно упрощает процесс извлечения признаков и снижает зависимость моделирования от опыта экспертов.Поэтому процесс моделирования постепенно переходит от предыдущего сложного многоэтапного процесса к простому сквозному процессу. -конечное моделирование.Влияние этого процесса заключается в том, что единица моделирования постепенно эволюционирует от состояния, трифонной модели к более крупным единицам, таким как слоги и слова, а структура модели изменяется от классической GMM-HMM к DNN+CTC (DNN обычно относится к к глубокой нейронной сети), развитое промежуточное состояние представляет собой структуру гибридной модели DNN-HMM.
HMM
Компания HMM была впервые создана в 1970-х годах. Он получил распространение и развитие в 1980-х годах и стал важным направлением обработки сигналов, успешно применялся в распознавании речи, распознавании поведения, распознавании текста и диагностике неисправностей.
Подробно классическая структура моделирования HMM выглядит следующим образом:
Рис. 6. Структура моделирования HMM
Среди них выходная вероятность моделируется с использованием смешанной модели Гаусса GMM, как показано на следующем рисунке:
DNN-HMM
В 2012 году Microsoft Дэн Ли и Ю Донг представили нейронную сеть с прямой связью FFDNN (глубокая нейронная сеть с прямой связью) в моделировании акустической модели и использовали вероятность выходного слоя FFDNN для замены выходных данных, рассчитанных GMM в предыдущем GMM-HMM. Вероятность возглавила тенденцию гибридной системы DNN-HMM.Многие исследователи использовали FFDNN, CNN, RNN, LSTM и другие сетевые структуры для моделирования выходной вероятности и достигли хороших результатов, как показано на рисунке 7.
Рис. 7 Среда гибридного моделирования DNN-HMM
В структуре моделирования DNN-HMM входные функции используют метод объединения кадров вокруг текущего кадра для реализации моделирования долгосрочной корреляции сигнала временного ряда, а выходные данные модели часто поддерживают общее состояние трихона (сенон). используется GMM-HMM.), количество состояний в распознавании непрерывной речи с большим словарем китайского языка обычно составляет около 10 000, как показано на рисунке 8.
Рис. 8 Процесс моделирования DNN-HMM
FFDNN
Структура модели FFDNN выглядит следующим образом:
Рис. 9 Процесс моделирования FFDNN
CNN
Примечание редактора: на самом деле самые ранние CNN использовались только для распознавания изображений и не использовались в системах распознавания речи до 2012 года.
Рис. 10 Процесс моделирования CNN
РНН и LSTM
Феномен коартикуляции речи показывает, что акустическая модель должна учитывать долговременную корреляцию между речевыми кадрами.Хотя приведенная выше DNN-HMM моделирует контекстную информацию путем сращивания кадров, в конце концов, количество сплайсированных кадров ограничен, а способность к моделированию не является сильной, поэтому введение RNN (рекуррентная нейронная сеть) расширяет возможности долгосрочного моделирования.В дополнение к получению вывода предыдущего скрытого слоя, ввод скрытого слоя RNN также получает выходные данные скрытого слоя в предыдущий момент в качестве текущих входных данных. Благодаря циклической обратной связи скрытого слоя RNN сохраняется долгосрочная историческая информация, что значительно увеличивает способность памяти модели и время -рядовые характеристики речи также хорошо описываются РНС. Однако простая структура RNN может легко вызвать такие проблемы, как исчезновение/взрыв градиента, когда модель обучена для BPTT (обратное распространение во времени), поэтому на основе RNN вводится LSTM (модель с долговременной кратковременной памятью). является специальной RNN.Долгосрочная информация моделируется с помощью специальной структуры ячейки и трех вентильных нейронов, что решает проблему градиента RNN.Практика также доказала, что способность LSTM к долгосрочному моделированию лучше, чем у обычных РНН.
Рисунок 11 Структура RNN
Рисунок 12 RNN в LSTM
CTC
Вышеупомянутые методы моделирования должны удовлетворять условию во время обучения модели, то есть каждый кадр в обучающих данных должен быть предварительно определен с соответствующей меткой, то есть порядковым номером, соответствующим выходному состоянию ГНС, и обучающему последовательность признаков и последовательность признаков меток должны быть одинаковой длины.Чтобы получить метки, необходимо использовать существующую модель для принудительного выравнивания последовательности обучающих данных и последовательности меток.Однако подготовка меток во время обучения на основе большие данные отнимают много времени, в то же время точность моделей, используемых для выравнивания, часто бывает необъективной, а метки, используемые при обучении, будут иметь ошибку. Поэтому для решения проблемы, связанной с тем, что последовательность меток и последовательность признаков не имеют одинаковой длины, вводится критерий CTC (временная классификация коннектионистов). связанные с нейронной сетью, используемой для моделирования временных рядов.Комбинация сетей (таких как LSTM) может использоваться непосредственно для сквозного моделирования моделей, подрывая почти 30-летнюю структуру HMM, используемую для распознавания речи.
Критерий CTC вводит пустую категорию, чтобы устранить путаницу в единице произношения и подчеркнуть различия между моделью и другими моделями, поэтому CTC имеет очень очевидный эффект всплеска.На рисунке 13 модель triphone-lstm-ctc используется для сравнения содержания. Для выходного распределения вероятностей распознанного голоса «Sogou Voice» видно, что большинство областей поглощаются пробелом, а идентифицированные трифоны соответствуют явным пикам.
Рисунок 13. Демонстрация пикового эффекта CTC.
Можно ожидать, что технология сквозного распознавания, основанная на CTC или относящаяся к концепции CTC (например, LFMMI), постепенно станет основной, а структура HMM будет постепенно вытесняться.
Другие методы моделирования
методы языкового моделирования
В настоящее время технология RNNLM постепенно внедряется в распознавание речи.Моделируя более длинную историческую информацию, RNNLM улучшила производительность распознавания лучше, чем традиционная технология N-Gram, но, учитывая большой словарный запас распознавания речи, если N-Gram полностью заменен, это приведет к значительному увеличению объема вычислений и времени вычислений.Поэтому в движке Zhiyin RNNLM используется для переупорядочения списка N-лучших кандидатов, выводимого распознаванием N-грамм.
Технология голосового пробуждения
Для метода фиксированных слов пробуждения в механизме Zhiyin сквозное моделирование слов пробуждения выполняется на основе DNN следующим образом:
Рис. 14 Сквозной процесс голосового пробуждения
Хотя этот метод достиг очень низкого уровня ложных пробуждений, у него есть очевидные недостатки.Слова пробуждения нельзя настроить.Поэтому в движке Zhiyin мы используем DNN для извлечения функции узкого места для модели пробуждения на основе HMM. обучение, которое является более традиционным, чем традиционный метод обучения на основе MFCC, также дает лучшие результаты.
О будущем
Хотя возможности моделирования распознавания речи были значительно улучшены, такие проблемы, как дальнее поле, шум, акцент и привычка произношения (глотание), все еще существуют.Я согласен с утверждением Ву Энда о том, что уровень точности увеличился с 95% до 99%, хотя Это всего лишь 4-процентный разрыв, но он может изменить то, как люди взаимодействуют между собой, позволяя использовать смены, которые редко используются часто.
В настоящее время стоимость получения необработанных голосовых данных становится все ниже и ниже. В отрасли используются десятки тысяч часов размеченных данных для обновления моделей. В будущем станут возможными обучающие данные 100 000 уровней. Как эффективно использовать данные , в основном в следующих пунктах Соображения:
Уровень проверки данных: используйте неконтролируемые, слабо контролируемые и частично контролируемые данные для обучения и в то же время более эффективно выбирайте данные для маркировки Zhiyin Engine уже использует методы активного обучения для проверки данных;
Рабочий уровень: кластеры, основанные на гетерогенных вычислениях, могут эффективно выполнять обучение модели на больших данных, а модернизация вычислительной мощности была расширена с автономного обучения до онлайн-тестирования;
Уровень модели: для изучения очень больших данных требуются модели с более сильными возможностями.В настоящее время составная структура, основанная на различных структурах модели (например, CNN-LSTM-DNN), доказала свою осуществимость, а последующая структура обучения последовательности на основе Encoder- Attention-Decoder также был объединен с распознаванием речи.
В то же время, хотя распознавание речи теперь может достигать высокого уровня точности, скачок уровня точности с 95% до 99% или даже до 100% представляет собой процесс перехода от количественных изменений к качественным изменениям, а также является важной частью процесса распознавания речи. определение того, может ли голосовое взаимодействие стать основным методом взаимодействия.Однако некоторые старые проблемы распознавания речи все еще существуют, и до сих пор нет технической возможности решить их полностью.Поэтому инновации продукта, отличные от технологий, также очень важны, что может эффективно сделать за отсутствие точности.
Взяв в качестве примера Zhiyin Engine, он обеспечивает решение этой проблемы с исправлением голосовых ошибок. Ошибки распознавания можно исправить с помощью естественной речи. Например, если пользователь хочет сказать «Меня зовут Чен Вэй», он распознается как « Меня зовут Чен Вэй». Меня зовут Ченвэй», и результат распознавания будет исправлен, если произнести «Эр Донг Чен Вэйвэй» голосом. В настоящее время, после нескольких циклов итераций продукта, модификация голоса достигла 80% успеха модификации. , и он был применен к движку Zhiyin.В голосовом взаимодействии Sogou он также интегрирует возможность изменения голоса в методе ввода Sogou iOS.