Интерпретация сквозной модели распознавания речи: FSMN и ее вариантные модели

Резюме: В течение длительного времени наиболее часто используемой моделью в области распознавания речи является GMM-HMM. Но в последние годы с развитием глубокого обучения появляется все больше моделей распознавания речи на основе нейронных сетей.

I. Обзор

Долгое время наиболее часто используемой моделью в области распознавания речи была GMM-HMM. Но в последние годы с развитием глубокого обучения появляется все больше моделей распознавания речи на основе нейронных сетей. Среди различных типов нейронных сетей RNN широко используются в акустических моделях благодаря их способности фиксировать контекстные зависимости данных последовательности. Наиболее часто используемые модели RNN включают LSTM, GRU и т. д. Однако вычисление RNN в каждый момент требует вывода предыдущего момента в качестве входных данных, поэтому его можно вычислять только последовательно, что очень медленно.

Кроме того, по сравнению с сетевыми структурами, такими как FNN, обучение RNN подвержено исчезновению градиента, сходится медленнее и требует больше вычислительных ресурсов. Предполагается, что сети с последовательной памятью с прямой связью (FSMN) [1] [2] не только сохранят способность RNN моделировать зависимости последовательностей, но также ускорят скорость расчета модели и уменьшат вычислительную сложность Spend. Предложенные позже cFSMN[3], DFSMN[4] и Pyramidal FSMN[5] дополнительно улучшены и оптимизированы на основе FSMN. FSMN, cFSMN и DFSMN — все это работа доктора Чжан Шиляна из Университета науки и технологий Китая.Пирамидальная FSMN — это модель, предложенная Yuncong Technology при обновлении набора данных Librispeech в 2018 году.

2. ФСМН

Рисунок 1. Структура модели FSMN

FSMN, по сути, представляет собой полносвязную сеть с прямой связью (FNN), и инновация заключается в добавлении блока памяти к ее скрытому слою. Функция модуля памяти заключается в совместном кодировании передней и задней частей каждого скрытого состояния, чтобы реализовать захват контекста последовательности. Конкретный процесс вычисления выглядит следующим образом: если предположить, что входная последовательность представляет собой входные данные в момент времени t, а соответствующее состояние скрытого слоя первого слоя записано как , выход модуля памяти будет следующим:

Среди них он представляет собой поэлементное умножение, которое является параметром коэффициента, который необходимо изучить. Это односторонняя FSMN, потому что учитывается только прошлая информация в момент времени t. Если вы хотите учитывать будущую информацию, вам нужно только добавить скрытое состояние после времени t таким же образом. Формула расчета двух -way FSMN выглядит следующим образом:

Среди них представляет порядок рассмотрения прошлой информации и представляет порядок рассмотрения будущей информации. Вывод модуля памяти можно рассматривать как контекстную информацию в момент времени t и отправлять на следующий скрытый уровень вместе с выводом скрытого слоя в момент времени t. Расчет следующего скрытого слоя:

FSMN также можно комбинировать с механизмом внимания, при этом параметры и выход модуля памяти рассчитываются следующим образом:

3. CFSMN

Рисунок 2. Структура модели cFSMN

Чтобы еще больше упростить модель, уменьшить размер модели и повысить скорость обучения и вывода, cFSMN внесла два основных улучшения в FSMN:

Выполняя разложение матрицы низкого ранга на матрице весов, скрытый слой разбивается на два слоя;
Операция уменьшения размерности выполняется при вычислении уровня cFSMN, и на следующий уровень отправляется только вывод модуля памяти, а скрытое состояние текущего кадра больше не отправляется напрямую на следующий уровень.

** Конкретные этапы расчета уровня cFSMN: ** Выходные данные предыдущего уровня уменьшаются по размерности посредством низкорангового линейного преобразования, и полученный низкоразмерный вектор вводится в модуль памяти. Модуль аналогичен модулю FSMN, за исключением того, что добавлен еще один текущий кадр — низкоразмерный вектор для введения информации о выравнивании. Наконец, выход модуля памяти подвергается аффинному преобразованию и нелинейному преобразованию как выход текущего слоя. Ссылаясь на рисунок 2, формула расчета каждого шага выглядит следующим образом:

В задаче Switchboard cFSMN может уменьшить размер модели до одной трети модели FSMN с более низкой частотой ошибок, чем FSMN.

4. ДФСМН

Рисунок 3. Структура модели DFSMN

Как следует из названия, цель DeepFSMN (DFSMN) состоит в том, чтобы надеяться построить более глубокую сетевую структуру cFSMN. Однако при непосредственном наложении слоев cFSMN легко столкнуться с исчезновением градиента во время обучения.Вдохновленный Residual Network и Highway Network, DFSMN добавляет пропущенные соединения между модулями памяти в разных слоях. В то же время из-за перекрытия и информационной избыточности между соседними кадрами речевых сигналов DFSMN вводит фактор шага в модуль памяти, моделируемый на основе жесткой свертки. Ссылаясь на рисунок 3, метод расчета модуля памяти уровня:

Среди них он представляет операцию пропуска соединения, и в статье выбрано отображение идентичности. и - размеры шага, используемые модулем памяти при обработке прошлой и будущей информации соответственно.

4. Пирамидальный ФСМН

Пирамидальный FSMN (pFSMN) считает, что недостатком предыдущих моделей серии FSMN является то, что и нижний, и верхний уровни сети будут извлекать долговременную контекстную информацию, что приводит к повторным операциям. pFSMN предлагает модуль памяти в форме пирамиды, чем глубже сетевой уровень извлекает функции более высокого уровня, то есть нижний сетевой уровень извлекает фонематическую информацию, а верхний сетевой уровень извлекает семантическую информацию и синтаксическую информацию. Эта пирамидальная структура может одновременно повысить точность и уменьшить количество параметров модели. pFSMN уменьшает количество соединений с пропуском, используемых в DSFMN, и выполняет соединения с пропуском только при изменении размера модуля памяти. Модуль памяти рассчитывается как:

Помимо введения пирамидальной структуры, два других улучшения pFSMN:

Основываясь на методе обработки изображений, 6-уровневый модуль Residual CNN добавляется перед уровнем FSMN для извлечения более надежных речевых признаков и уменьшения размерности признаков за счет понижения дискретизации.
Средневзвешенное значение перекрестной потери энтропии (потери CE) и потери LF-MMI используется в качестве функции потерь, используемой при обучении модели. Причина введения потерь CE заключается в том, что их легко переобучить при обучении данных последовательности, а потеря CE эквивалентна эффекту регуляризации.

Рисунок 4. Структура пирамидальной модели FSMN

использованная литература:

[1] Zhang S, Jiang H, Wei S, et al. Feedforward sequential memory neural networks without recurrent feedback[J]. arXiv preprint arXiv:1510.02693, 2015.

[2] Zhang S, Liu C, Jiang H, et al. Feedforward sequential memory networks: A new structure to learn long-term dependency[J]. arXiv preprint arXiv:1512.08301, 2015.

[3] Zhang S, Jiang H, Xiong S, et al. Compact Feedforward Sequential Memory Networks for Large Vocabulary Continuous Speech Recognition[C]//Interspeech. 2016: 3389-3393.

[4] Zhang S, Lei M, Yan Z, et al. Deep-fsmn for large vocabulary continuous speech recognition[C]//2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018: 5869-5873.

[5] Yang X, Li J, Zhou X. A novel pyramidal-FSMN architecture with lattice-free MMI for speech recognition[J]. arXiv preprint arXiv:1810.11352, 2018.

Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~