Предварительное исследование алгоритма ASR для распознавания речи

Аннотация: Введение в основные понятия и математические принципы технологии фонетической транскрипции текста ASR.

Эта статья опубликована в сообществе HUAWEI CLOUD.«Введение в голос для новичков (3): предварительное исследование алгоритма ASR для распознавания речи | Кодирование и декодирование | Акустическая модель и модель речи | Байесовская формула | Фонема», Автор: Желтый пряный цыпленок.

Развитие технологии распознавания речи имеет многолетнюю историю и может быть условно разделено на традиционные методы распознавания и сквозные методы, основанные на сетях глубокого обучения.

В любом случае выполняется процесс «ввод-кодирование-декодирование-вывод».

图1 语音识别过程

Рис. 1. Процесс распознавания речи

процесс кодирования: вводом для распознавания речи является звук, который представляет собой сигнал, который не может быть напрямую обработан компьютером, поэтому требуется процесс кодирования для преобразования его в цифровую информацию и извлечения его характеристик для обработки. При кодировании звуковой сигнал обычно разрезается на небольшие сегменты в соответствии с очень коротким интервалом времени, чтобы стать кадрами. Для каждого кадра признаки сигнала могут быть извлечены по некоторому правилу (например, признаки MFCC) и преобразованы в многомерный вектор. Каждое измерение в векторе является характеристикой этого кадра сигнала.

图2 语音识别编码过程

Рис. 2. Процесс кодирования распознавания речи

процесс декодирования: Процесс декодирования — это процесс преобразования закодированного вектора в текст, который необходимо обрабатывать двумя моделями: акустической моделью и языковой моделью. Обрабатывая закодированные векторы, акустическая модель объединяет соседние кадры в фонемы, такие как инициалы и финалы в китайском пиньине, а затем объединяет их в одно слово или китайский иероглиф. Языковая модель используется для корректировки нелогичных слов, полученных акустической моделью, чтобы сделать результат распознавания плавным. Оба требуют много данных для обучения.

图3 语言模型处理过程

Рисунок 3 Процесс обработки языковой модели

Часть звукового сигнала известна, преобразована в вектор акустических признаков и выражена как X=[x1,x2,x3,…]X=[_x_1,_x_2,_x_3,…], где x_i_xi_представляет набор векторов признаков; возможные текстовые последовательности представлены как W=[w1,w2,w3,…]W=[_w_1,_w_2,_w_3,…], где _wi_ представляет слово, найдите _W_∗=argmaxw__P(W_∣_X), который является базовой отправной точкой для распознавания речи. И это можно узнать из формулы Байеса:

Среди них P(X|W)P(X_∣_W) называется акустической моделью (АМ), P(W)P(W) называется языковой моделью (LM), поскольку P(W)P(W) обычно является инвариантом и может быть опущен.

В настоящее время многие исследователи рассматривают задачу распознавания речи как две части: акустическую модель и модель речи соответственно, чтобы получить P(X|W)P(X_∣_W) и P(W)P(W). Позже был разработан сквозной метод, основанный на глубоком обучении и больших данных, для прямого вычисления P(W|X)P(W_∣_X), который объединяет акустическую модель и языковую модель.

Задачу распознавания речи можно рассматривать как соответствие между речью и текстом, а задачу распознавания речи вообще можно отнести к выделению основной единицы текста. Если единица отличается, сила моделирования также изменится.

图4 语音识别的基本途径

Рис. 4. Базовый подход к распознаванию речи

По основным композиционным единицам текста на рисунке, от крупного к мелкому, это:

весь текст предложения, например "Здравствуйте!

Мир», соответствующей шкалой моделирования речи является вся речь.

Для таких слов, как обособленные слова «Хорошо», «Мир», соответствующая шкала моделирования речи составляет приблизительно диапазон произношения каждого слова.
Фонемы, такие как «мир», далее обозначаются как «/wɘrld//w_ɘ_rld/", где в качестве базовой единицы используется каждый фонетический символ, а соответствующая шкала моделирования речи сводится к диапазону произношения каждой фонемы.
Трифоны, то есть фонемы, учитывающие контекст, например фонема «/д//d/" далее представляется как "{/l-d-sil, /u-d-l/,…}/л_-_д_-_сил,/у_-_д_-_л/,…», соответствующая шкала моделирования речи представляет собой диапазон произношения каждого трифона, а длина аналогична монофону.
Состояние скрытой марковской модели, то есть каждые три фактора представлены скрытой марковской моделью с тремя состояниями, и каждое состояние используется в качестве степени детализации моделирования, а соответствующая шкала моделирования речи будет дополнительно сокращена.

Каждый из вышеперечисленных методов реализации соответствует разным уровням детализации моделирования, которые можно условно разделить на скрытые структуры марковской модели и сквозные структуры. Следующие два поста в блоге подробно расскажут о разработке алгоритмов распознавания речи на основе двух структур.

Ссылаться на

1. Основной закон распознавания речи - Центр речевых и языковых технологий Университета Цинхуа [PDF]

Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~