Предварительное исследование алгоритма ASR для распознавания речи

искусственный интеллект

Аннотация: Введение в основные понятия и математические принципы технологии фонетической транскрипции текста ASR.

Эта статья опубликована в сообществе HUAWEI CLOUD.«Введение в голос для новичков (3): предварительное исследование алгоритма ASR для распознавания речи | Кодирование и декодирование | Акустическая модель и модель речи | Байесовская формула | Фонема», Автор: Желтый пряный цыпленок.

Развитие технологии распознавания речи имеет многолетнюю историю и может быть условно разделено на традиционные методы распознавания и сквозные методы, основанные на сетях глубокого обучения.

В любом случае выполняется процесс «ввод-кодирование-декодирование-вывод».

图1 语音识别过程

Рис. 1. Процесс распознавания речи

процесс кодирования: вводом для распознавания речи является звук, который представляет собой сигнал, который не может быть напрямую обработан компьютером, поэтому требуется процесс кодирования для преобразования его в цифровую информацию и извлечения его характеристик для обработки. При кодировании звуковой сигнал обычно разрезается на небольшие сегменты в соответствии с очень коротким интервалом времени, чтобы стать кадрами. Для каждого кадра признаки сигнала могут быть извлечены по некоторому правилу (например, признаки MFCC) и преобразованы в многомерный вектор. Каждое измерение в векторе является характеристикой этого кадра сигнала.

图2 语音识别编码过程

Рис. 2. Процесс кодирования распознавания речи

процесс декодирования: Процесс декодирования — это процесс преобразования закодированного вектора в текст, который необходимо обрабатывать двумя моделями: акустической моделью и языковой моделью. Обрабатывая закодированные векторы, акустическая модель объединяет соседние кадры в фонемы, такие как инициалы и финалы в китайском пиньине, а затем объединяет их в одно слово или китайский иероглиф. Языковая модель используется для корректировки нелогичных слов, полученных акустической моделью, чтобы сделать результат распознавания плавным. Оба требуют много данных для обучения.

图3 语言模型处理过程

Рисунок 3 Процесс обработки языковой модели

Часть звукового сигнала известна, преобразована в вектор акустических признаков и выражена как X=[x1,x2,x3,…]X=[_x_1​,_x_2​,_x_3​,…], где x_i_xi_​представляет набор векторов признаков; возможные текстовые последовательности представлены как W=[w1,w2,w3,…]W=[_w_1​,_w_2​,_w_3​,…], где _wi_​ представляет слово, найдите _W_∗=argmaxw_​_P(W_∣_X), который является базовой отправной точкой для распознавания речи. И это можно узнать из формулы Байеса:

Среди них P(X|W)P(X_∣_W) называется акустической моделью (АМ), P(W)P(W) называется языковой моделью (LM), поскольку P(W)P(W) обычно является инвариантом и может быть опущен.

В настоящее время многие исследователи рассматривают задачу распознавания речи как две части: акустическую модель и модель речи соответственно, чтобы получить P(X|W)P(X_∣_W) и P(W)P(W). Позже был разработан сквозной метод, основанный на глубоком обучении и больших данных, для прямого вычисления P(W|X)P(W_∣_X), который объединяет акустическую модель и языковую модель.

Задачу распознавания речи можно рассматривать как соответствие между речью и текстом, а задачу распознавания речи вообще можно отнести к выделению основной единицы текста. Если единица отличается, сила моделирования также изменится.

图4 语音识别的基本途径

Рис. 4. Базовый подход к распознаванию речи

По основным композиционным единицам текста на рисунке, от крупного к мелкому, это:

  • весь текст предложения, например "Здравствуйте!

Мир», соответствующей шкалой моделирования речи является вся речь.

  • Для таких слов, как обособленные слова «Хорошо», «Мир», соответствующая шкала моделирования речи составляет приблизительно диапазон произношения каждого слова.

  • Фонемы, такие как «мир», далее обозначаются как «/wɘrld//w_ɘ_rld/", где в качестве базовой единицы используется каждый фонетический символ, а соответствующая шкала моделирования речи сводится к диапазону произношения каждой фонемы.

  • Трифоны, то есть фонемы, учитывающие контекст, например фонема «/д//d/" далее представляется как "{/l-d-sil, /u-d-l/,…}/л_-_д_-_сил,/у_-_д_-_л/,…», соответствующая шкала моделирования речи представляет собой диапазон произношения каждого трифона, а длина аналогична монофону.

  • Состояние скрытой марковской модели, то есть каждые три фактора представлены скрытой марковской моделью с тремя состояниями, и каждое состояние используется в качестве степени детализации моделирования, а соответствующая шкала моделирования речи будет дополнительно сокращена.

Каждый из вышеперечисленных методов реализации соответствует разным уровням детализации моделирования, которые можно условно разделить на скрытые структуры марковской модели и сквозные структуры. Следующие два поста в блоге подробно расскажут о разработке алгоритмов распознавания речи на основе двух структур.

Ссылаться на

1. Основной закон распознавания речи - Центр речевых и языковых технологий Университета Цинхуа [PDF]

Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~