Познакомить вас с традиционной технологией распознавания речи

Аннотация: модель HMM со скрытой цепью Маркова была основным методом для практических систем распознавания речи с тех пор, как она использовалась для распознавания речи в 1980-х годах.

Эта статья опубликована в сообществе HUAWEI CLOUD.«Введение в речь для начинающих (4): введение в традиционную технологию распознавания речи | Скрытая цепь Маркова | Акустическая / языковая модель | Декодирование WFST», Автор: Желтый пряный цыпленок.

Модель HMM со скрытой цепью Маркова была основным методом для практических систем распознавания речи с тех пор, как она использовалась для распознавания речи в 1980-х годах.

1. Акустическая модель

1.1 Модель скрытой цепи Маркова HMM и акустическая модель

Согласно предыдущему сообщению в блоге, P (X | W) P (X ∣ W) соответствует акустической модели. Первое, что нужно учитывать, это то, что отношение неопределенной длины между речью и текстом делает невозможным идентичность двух последовательностей. , Переписка. Модель скрытой цепи Маркова может точно решить эту проблему.

Рис. 1. Модель скрытой цепи Маркова (I, E обозначают время начала и окончания)

Например, P(X│W)=P(x_1,x_2,x_3 |w_1,w_2)P(X│W)=P(x1,x2,x3∣w1,w2) можно выразить как указано выше скрыто В виде цепи Маркова, ww на рисунке — скрытое состояние НММ, хх — наблюдаемое значение НММ, количество скрытых состояний и количество наблюдаемых значений не ограничены друг другом, который решает проблему неопределенной длины ввода и вывода и имеет:

P(X│W)=P(w_1)P(x_1 |w_1)P(w_2 |w_1)P(x_2 |w_2)P(w_2 |w_2)P(x_3 |w_2)P(X│W)=P( w1)P(x1∣w1)P(w2∣w1)P(x2∣w2)P(w2∣w2)P(x3∣w2)

Среди них вероятность начального состояния HMM P(w_1)P(w1) и вероятность перехода состояния (P(w_2 |w_1)P(w2∣w1), P(w_2 |w_2)) P(w2∣ w2 )) можно рассчитать по общей выборке обычными статистическими методами.Основная трудность заключается в вероятности выброса ГММ (P(x_1 |w_1)P(x1∣w1), P(x_2 |w_2)P(x2 ∣w2 ) и P(x_3 |w_2)P(x3∣w2)), поэтому проблема акустической модели дополнительно уточняется до изучения вероятности эмиссии ГММ (вероятность эмиссии).

Еще одна проблема, которую необходимо решить, — это гранулярность основных единиц текста. Для речи детализацией кадра можно управлять, регулируя ширину окна обработки. Для текста гранулярность на уровне слов слишком широкая и общая, поэтому мы разбиваем ее, как показано ниже:

Рисунок 2. Взаимосвязь между телефоном, трифоном и сеноном (#N, #N^3N3, #3N^3N3 представляют порядки величин)

Слова состоят из фонем (Телефон), контекст фонемы разный, одна и та же фонема имеет разные варианты, например /ld-sil//l-d-sil/ и /udl//u-d-l/ , обозначим его как трифон.

Каждый трехфактор, в свою очередь, может быть смоделирован независимым HMM с тремя состояниями, поэтому базовая единица текстового аспекта программирует крошечные состояния HMM. Поскольку многие трифоны не появляются в корпусе или их число невелико, а состояния трифонов в конечном итоге могут быть разделены с помощью деревьев решений, для языка с общим количеством N фонем количество сохраняемых состояний трифонов намного меньше, чем 3N ^ 33N3, Обычно тысячи, они обычно определяются как Сеноны, и соответствие между каждым кадром и каждым Сеноном выражается как вероятность эмиссии P(x_i |s_j)P(xi∣sj) трифона HMM, где s_jsj Указывает jjth Senone, интервал соответствующего кадра (x_ixi) обычно составляет 25 мс, а межкадровый шаг обычно равен 10 мс. Среди них Senone представляет собой вариант фонемы, определяемый математической моделью и не имеющий прямого слухового опыта. Фонема "/сил/" не имеет фактического произношения, а означает только тишину, паузы или бессмысленные звуки. #NN – число фонов. #N^3N3 и #3N^3N3 – возможные порядки трифона и сенона, соответственно.

От предложения к слову, от слова к телефону, от телефона к трифону, каждый трифон моделируется с помощью HMM, а длинная цепочка HMM, образованная путем соединения всех связанных HMM в порядке произношения, представляет собой предложение.

Все P(X|W)P(X∣W) — это вероятность того, что эта длинная цепочка НММ производит последовательность наблюдений X. Поскольку количество Телефонов фиксировано, базовый набор, образованный всеми Трифонами НММ в системе, также фиксирован.Длинные цепочки, соответствующие разным ww, различны, потому что Трифоны, содержащиеся в длинных цепочках, различны, но словари, которые они используют, являются такой же. .

Используя p для представления Phone и c для представления Triphone, можно увидеть, что p может соответствовать нескольким cs, а P(X|W)P(X∣W) имеет отношение преобразования, подобное следующему:

P(X│W)=P(x_1,…,x_t│w_1,…,w_l ),w_1={p_1,p_2,…} \ = P(x_1,…,x_t│p_1,…,p_m ),p_1= c_1,p_2=c_2,p_3=c_3,… \ = P(x_1,…,x_t│c_1,…,c_m ),c_1={s_1,s_2,s_3,…} \ = P(x_1,…,x_t│s_1 ,…,s_o ),o>n=m>lP(X│W)=P(x1,…,xt│w1,…,wl),w1=p1,p2,…=P (x1,…,xt│p1,…,pm),p1=c1,p2=c2,p3=c3,…=P(x1,…,xt│c1 ,…,cm),c1=s1,s2,s3,…=P(x1,…,xt│s1,…,so),o>n=m>l

Согласно приведенной выше формуле, несмотря на то, что степень детализации акустического моделирования была уточнена, проблема по-прежнему состоит в том, чтобы найти вероятность генерации определенной последовательности наблюдений при заданном ГММ, но ГММ длиннее. В конечном счете вероятность эмиссии P( x_i|s_j) P(xi∣sj) моделирование.

Резюме: Проектирование акустической модели распознавания речи представляет собой процесс разборки от большого к малому, от макро к микро, а декодирование распознавания речи состоит в обратном процессе: от Фрейма к Сенону, от Сенона к Трифону, а затем к Телефон, наконец, слово до предложения.

1.2 Модель ГММ-ХММ

Согласно вышеизложенному, моделирование вероятности эмиссии P(x_i|s_j)P(xi∣sj) в ГММ напрямую влияет на качество акустической модели.

Гауссова смешанная модель (GMM) является наиболее часто используемой статистической моделью.При достаточном количестве субгауссовских чисел GMM может соответствовать любому распределению вероятностей, поэтому GMM становится предпочтительной моделью вероятности выбросов.

Каждый GMM соответствует сенону и представлен соответствующей функцией плотности вероятности (PDF).

На следующем рисунке представлена структура GMM-HMM одного трифона:

Рисунок 3 Структура GMM-HMM трифона

GMM рассматривает каждый кадр как изолированную точку в пространстве, и между точками нет никакой зависимости, поэтому GMM игнорирует временную информацию в речевом сигнале, а MFCC (Mel Frequency Cepstral Coeffcient) с меньшей корреляцией в каждом измерении в кадре. ) больше подходят для моделирования GMM.

После завершения обучения GMM путем сравнения каждой PDF можно получить вероятность эмиссии P(x_i|s_j)P(xi∣sj) В сочетании с вероятностью начального состояния и вероятностью перехода состояния HMM вычисляется P по формуле расчета HMM (X|W)P(X∣W).

1.3 Модель ДНН-ГММ

GMM — это генеративная модель (генеративная модель), которая фокусируется на характеристике внутреннего распределения данных. Она может напрямую решать P(x_i|s_j)P(xi∣sj) и P(x_i|s_j) = P(s_i |x_j)P (x_j)/P(s_j)P(xi∣sj)=P(si∣xj)P(xj)/P(sj), потому что P(x_j)P(xj ) опускает вычисление, P(s_j)P(sj) можно рассчитать с помощью обычных статистических методов, и далее проблема сводится к получению P(s_i|x_j)P(si∣xj), что является типичной классификацией проблема, а также дискриминант Среди них лучше всего работают глубокие нейронные сети. Где P(s_i|x_j)P(si∣xj) — вероятность правдоподобия (вероятность), P(s_j) — априорная вероятность, P(s_i|x_j) — апостериорная вероятность.

DNN используется для задач классификации, которые относятся к обучению с учителем и требуют подготовки меток. Поскольку набор для обучения речи часто является соответствием между речью и всем текстом, метки на уровне фрейма явно не указываются. Следовательно, необходимо использовать дополнительный алгоритм для маркировки набора данных, и выбранный метод — это GMM, описанный выше. GMM хорошо фиксирует внутреннюю взаимосвязь между известными данными, а введенная метка вызывает доверие. На рисунке ниже показана базовая структура акустической модели DNN-HMM: речевой признак используется в качестве входных данных DNN, а выходные данные DNN используются для расчета вероятности эмиссии HMM.

Рис. 4 Классическая структура DNN-HMM

По сравнению со структурой GMM-HMM единственное отличие DNN-HMM состоит в том, что вероятность эмиссии в структуре получается DNN вместо GMM.

2. Языковая модель

Проблема, которую должна решить языковая модель, заключается в том, как вычислить P (W).Общий метод основан на грамматике n-грамм или RNN.

2.1 Модель языка N-грамм

Языковая модель представляет собой типичную авторегрессионную модель.Данная подпоследовательность W=[w_1, w_2,…w_m]W=[w1, w2,…wm], ее вероятность выражается как

P(W)=P(w_1,w_2,…,w_m) \ = ∏_{i=1}^mP(w_i | w_1,w_2…,w_{i-1}) \ ∝ ∏_{i=1} ^mP(w_i | w_{i-n+1},w_{i-n+2},…,w_{i-1})P(W)=P(w1,w2,…,wm) =i=1∏mP(wi∣w1,w2…,wi-1)∝i=1∏mP(wi∣wi-n+1,wi-n+2, …,wi−1)

В приведенной выше формуле делается предположение, что «дальние родственники не так хороши, как ближайшие соседи», так называемая модель n-грамм, которая предполагает, что вероятность появления текущего слова связана только с n-1 словами перед словом , и каждый фактор в этой формуле должен быть из определенного числа Статистически рассчитанных в корпусе текстов, этот процесс является процессом обучения языковой модели, и необходимо перечислить все возможные P(w_i |w_{i-n +1},…,w_{i-1})P(wi ∣wi−n+1,…,wi−1).

Процесс вычисления можно упростить, чтобы вычислить пропорциональные отношения соответствующих строк слов в корпусе, то есть

P(w_i│w_{i-n+1},w_{i-n+1},…,w_{i-1} )= \frac {count(w_{i-n+1},w_{i- n+2},…,w_i)}{count(w_{i-n+1},w_{i-n+2},…,w_{i-1})}P(wi│wi−n+ 1 ,wi-n+1,…,wi-1)=count(wi-n+1,wi-n+2,…,wi-1)count(wi-n+1, wi −n+2,…,wi)

Среди них количество представляет собой количество раз, когда строка слов появляется в корпусе.Некоторые строки слов не появляются в обучающем тексте из-за недостаточного количества обучающего корпуса или необычных строк слов, которые могут быть обработаны алгоритмом сглаживания.

2.2 Языковая модель RNN

Из подформулы приведенной выше формулы расчета вероятности видно, что текущий результат зависит от предыдущей информации, поэтому для моделирования естественным образом можно использовать одностороннюю рекуррентную нейронную сеть.

Обычной практикой является использование исторических слов в предложении для предсказания текущего слова.

Рисунок 5 Базовая структура языковой модели RNN

Как показано на рисунке 5, это базовая структура языковой модели RNN.Выходной слой часто бывает широким, и каждый выходной узел соответствует слову.Весь выходной слой охватывает словарь, используемый языковой моделью, поэтому его обучение по существу является обучением.Вывод каждого узла представляет вероятность генерации слова узла, то есть P(w_i |w_{i-n+1},…,w_{i-1})P(wi∣wi− n+1 ,…,wi−1), P(W)P(W) можно найти по формуле.

3. Декодер

Конечной целью нашего распознавания речи является выбор WW, который максимизирует P(W|X)=P(X|W)P(W)P(W∣X)=P(X∣W)P(W), поэтому декодирование по сути является задачей поиска, и поиск оптимального пути может быть выполнен единообразно с помощью взвешенного преобразователя конечных состояний (WFST).

WFST состоит из узлов состояния и ребер, и на ребрах есть соответствующие входные, выходные символы и веса в виде x:y/wx:y/w, указывающие, что входной символ ребра равен x, выходной символ равно y, а вес равен w, вес может быть определен как вероятность (чем больше, тем лучше), штраф (чем меньше, тем лучше) и т. д. Все веса от начального до конечного состояния обычно накапливаются и записываются как оценка пути, полный путь должен начинаться от времени начала до времени окончания.

Рис. 6. Пример языковой модели WFST

На рисунке выше показан пример языковой модели, представленной как WFST. Предложения состоят из слов, которые можно обозначать как WFST и обозначать как G для n-граммных LM. Видно, что входные символы и выходные символы G одинаковы, оба являются словами, а последующие веса преобразуются из значений вероятности в языковой модели. Согласно этому рисунку, оценка предложения «с использованием данные лучше» составляет 1+0,66+0,5+0,7=2,86, балл за предложение «использование интуиции хуже» составляет 1+0,33+1+0,3=2,63.

Рисунок 7 Пример словаря произношения WFST

На рисунке выше приведен пример словаря произношения, представленного в виде WFST. Поскольку слова состоят из фонем, их можно обозначать как WFST и обозначать как L. ε на рисунке является заполнителем, указывающим на отсутствие ввода или вывода. Согласно этому графику слово «data=/dey t ax/» имеет оценку 1+0,5+0,3+1=2,8, а слово «dew=/d uw/» имеет оценку 1+1=2. .Если веса определены Для наказания, скорее "роса".

И так далее, определяем вход Triphone, выход Phone, WFST это C, и WFST который определяет вход как Senone, а выход Triphone это H, пока что получаем 4 WFST, а именно H, C, Л, Г. Поскольку выход первого является входом второго, все они могут быть объединены в WFST, так что от сенона к трифону (H), от трифона к телефону ©, от телефона к слову (L), от слова к предложению (G). ), это график декодирования.

В окончательном декодировании требуется только GMM или DNN, а для декодирования можно использовать HCLG.Для последовательности признаков речи X, P(s_i|x_j)P(si∣xj) можно вычислить с помощью GMM или DNN, с с помощью HCLG вычисление P(W|X)∝P(X|W)P(W)P(W∣X)∝P(X∣W)P(W) станет простым, то есть добавление веса на пути W (Предполагается, что это штраф), а затем вычесть окончательный балл, полученный по вероятности испускания каждого состояния для входа.Чем меньше балл, тем больше вероятность того, что речь X будет транскрибирована в W.

Ссылаться на:

1. Основной закон распознавания речи - Центр речевых и языковых технологий Университета Цинхуа [PDF]

Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~