Аннотация: Введение в основные понятия и математические принципы технологии фонетической транскрипции текста ASR.
Эта статья опубликована в сообществе HUAWEI CLOUD.«Введение в голос для новичков (3): предварительное исследование алгоритма ASR для распознавания речи | Кодирование и декодирование | Акустическая модель и модель речи | Байесовская формула | Фонема», Автор: Желтый пряный цыпленок.
Развитие технологии распознавания речи имеет многолетнюю историю и может быть условно разделено на традиционные методы распознавания и сквозные методы, основанные на сетях глубокого обучения.
В любом случае выполняется процесс «ввод-кодирование-декодирование-вывод».
Рис. 1. Процесс распознавания речи
процесс кодирования: вводом для распознавания речи является звук, который представляет собой сигнал, который не может быть напрямую обработан компьютером, поэтому требуется процесс кодирования для преобразования его в цифровую информацию и извлечения его характеристик для обработки. При кодировании звуковой сигнал обычно разрезается на небольшие сегменты в соответствии с очень коротким интервалом времени, чтобы стать кадрами. Для каждого кадра признаки сигнала могут быть извлечены по некоторому правилу (например, признаки MFCC) и преобразованы в многомерный вектор. Каждое измерение в векторе является характеристикой этого кадра сигнала.
Рис. 2. Процесс кодирования распознавания речи
процесс декодирования: Процесс декодирования — это процесс преобразования закодированного вектора в текст, который необходимо обрабатывать двумя моделями: акустической моделью и языковой моделью. Обрабатывая закодированные векторы, акустическая модель объединяет соседние кадры в фонемы, такие как инициалы и финалы в китайском пиньине, а затем объединяет их в одно слово или китайский иероглиф. Языковая модель используется для корректировки нелогичных слов, полученных акустической моделью, чтобы сделать результат распознавания плавным. Оба требуют много данных для обучения.
Рисунок 3 Процесс обработки языковой модели
Часть звукового сигнала известна, преобразована в вектор акустических признаков и выражена как X=[x1,x2,x3,…]X=[_x_1,_x_2,_x_3,…], где x_i_xi_представляет набор векторов признаков; возможные текстовые последовательности представлены как W=[w1,w2,w3,…]W=[_w_1,_w_2,_w_3,…], где _wi_ представляет слово, найдите _W_∗=argmaxw__P(W_∣_X), который является базовой отправной точкой для распознавания речи. И это можно узнать из формулы Байеса:
Среди них P(X|W)P(X_∣_W) называется акустической моделью (АМ), P(W)P(W) называется языковой моделью (LM), поскольку P(W)P(W) обычно является инвариантом и может быть опущен.
В настоящее время многие исследователи рассматривают задачу распознавания речи как две части: акустическую модель и модель речи соответственно, чтобы получить P(X|W)P(X_∣_W) и P(W)P(W). Позже был разработан сквозной метод, основанный на глубоком обучении и больших данных, для прямого вычисления P(W|X)P(W_∣_X), который объединяет акустическую модель и языковую модель.
Задачу распознавания речи можно рассматривать как соответствие между речью и текстом, а задачу распознавания речи вообще можно отнести к выделению основной единицы текста. Если единица отличается, сила моделирования также изменится.
Рис. 4. Базовый подход к распознаванию речи
По основным композиционным единицам текста на рисунке, от крупного к мелкому, это:
- весь текст предложения, например "Здравствуйте!
Мир», соответствующей шкалой моделирования речи является вся речь.
-
Для таких слов, как обособленные слова «Хорошо», «Мир», соответствующая шкала моделирования речи составляет приблизительно диапазон произношения каждого слова.
-
Фонемы, такие как «мир», далее обозначаются как «/wɘrld//w_ɘ_rld/", где в качестве базовой единицы используется каждый фонетический символ, а соответствующая шкала моделирования речи сводится к диапазону произношения каждой фонемы.
-
Трифоны, то есть фонемы, учитывающие контекст, например фонема «/д//d/" далее представляется как "{/l-d-sil, /u-d-l/,…}/л_-_д_-_сил,/у_-_д_-_л/,…», соответствующая шкала моделирования речи представляет собой диапазон произношения каждого трифона, а длина аналогична монофону.
-
Состояние скрытой марковской модели, то есть каждые три фактора представлены скрытой марковской моделью с тремя состояниями, и каждое состояние используется в качестве степени детализации моделирования, а соответствующая шкала моделирования речи будет дополнительно сокращена.
Каждый из вышеперечисленных методов реализации соответствует разным уровням детализации моделирования, которые можно условно разделить на скрытые структуры марковской модели и сквозные структуры. Следующие два поста в блоге подробно расскажут о разработке алгоритмов распознавания речи на основе двух структур.
Ссылаться на
1. Основной закон распознавания речи - Центр речевых и языковых технологий Университета Цинхуа [PDF]
Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~