Резюме: В течение длительного времени наиболее часто используемой моделью в области распознавания речи является GMM-HMM. Но в последние годы с развитием глубокого обучения появляется все больше моделей распознавания речи на основе нейронных сетей.
I. Обзор
Долгое время наиболее часто используемой моделью в области распознавания речи была GMM-HMM. Но в последние годы с развитием глубокого обучения появляется все больше моделей распознавания речи на основе нейронных сетей. Среди различных типов нейронных сетей RNN широко используются в акустических моделях благодаря их способности фиксировать контекстные зависимости данных последовательности. Наиболее часто используемые модели RNN включают LSTM, GRU и т. д. Однако вычисление RNN в каждый момент требует вывода предыдущего момента в качестве входных данных, поэтому его можно вычислять только последовательно, что очень медленно.
Кроме того, по сравнению с сетевыми структурами, такими как FNN, обучение RNN подвержено исчезновению градиента, сходится медленнее и требует больше вычислительных ресурсов. Предполагается, что сети с последовательной памятью с прямой связью (FSMN) [1] [2] не только сохранят способность RNN моделировать зависимости последовательностей, но также ускорят скорость расчета модели и уменьшат вычислительную сложность Spend. Предложенные позже cFSMN[3], DFSMN[4] и Pyramidal FSMN[5] дополнительно улучшены и оптимизированы на основе FSMN. FSMN, cFSMN и DFSMN — все это работа доктора Чжан Шиляна из Университета науки и технологий Китая.Пирамидальная FSMN — это модель, предложенная Yuncong Technology при обновлении набора данных Librispeech в 2018 году.
2. ФСМН
Рисунок 1. Структура модели FSMN
FSMN, по сути, представляет собой полносвязную сеть с прямой связью (FNN), и инновация заключается в добавлении блока памяти к ее скрытому слою. Функция модуля памяти заключается в совместном кодировании передней и задней частей каждого скрытого состояния, чтобы реализовать захват контекста последовательности. Конкретный процесс вычисления выглядит следующим образом: если предположить, что входная последовательность представляет собой входные данные в момент времени t, а соответствующее состояние скрытого слоя первого слоя записано как , выход модуля памяти будет следующим:
Среди них он представляет собой поэлементное умножение, которое является параметром коэффициента, который необходимо изучить. Это односторонняя FSMN, потому что учитывается только прошлая информация в момент времени t. Если вы хотите учитывать будущую информацию, вам нужно только добавить скрытое состояние после времени t таким же образом. Формула расчета двух -way FSMN выглядит следующим образом:
Среди них представляет порядок рассмотрения прошлой информации и представляет порядок рассмотрения будущей информации. Вывод модуля памяти можно рассматривать как контекстную информацию в момент времени t и отправлять на следующий скрытый уровень вместе с выводом скрытого слоя в момент времени t. Расчет следующего скрытого слоя:
FSMN также можно комбинировать с механизмом внимания, при этом параметры и выход модуля памяти рассчитываются следующим образом:
3. CFSMN
Рисунок 2. Структура модели cFSMN
Чтобы еще больше упростить модель, уменьшить размер модели и повысить скорость обучения и вывода, cFSMN внесла два основных улучшения в FSMN:
- Выполняя разложение матрицы низкого ранга на матрице весов, скрытый слой разбивается на два слоя;
- Операция уменьшения размерности выполняется при вычислении уровня cFSMN, и на следующий уровень отправляется только вывод модуля памяти, а скрытое состояние текущего кадра больше не отправляется напрямую на следующий уровень.
** Конкретные этапы расчета уровня cFSMN: ** Выходные данные предыдущего уровня уменьшаются по размерности посредством низкорангового линейного преобразования, и полученный низкоразмерный вектор вводится в модуль памяти. Модуль аналогичен модулю FSMN, за исключением того, что добавлен еще один текущий кадр — низкоразмерный вектор для введения информации о выравнивании. Наконец, выход модуля памяти подвергается аффинному преобразованию и нелинейному преобразованию как выход текущего слоя. Ссылаясь на рисунок 2, формула расчета каждого шага выглядит следующим образом:
В задаче Switchboard cFSMN может уменьшить размер модели до одной трети модели FSMN с более низкой частотой ошибок, чем FSMN.
4. ДФСМН
Рисунок 3. Структура модели DFSMN
Как следует из названия, цель DeepFSMN (DFSMN) состоит в том, чтобы надеяться построить более глубокую сетевую структуру cFSMN. Однако при непосредственном наложении слоев cFSMN легко столкнуться с исчезновением градиента во время обучения.Вдохновленный Residual Network и Highway Network, DFSMN добавляет пропущенные соединения между модулями памяти в разных слоях. В то же время из-за перекрытия и информационной избыточности между соседними кадрами речевых сигналов DFSMN вводит фактор шага в модуль памяти, моделируемый на основе жесткой свертки. Ссылаясь на рисунок 3, метод расчета модуля памяти уровня:
Среди них он представляет операцию пропуска соединения, и в статье выбрано отображение идентичности. и - размеры шага, используемые модулем памяти при обработке прошлой и будущей информации соответственно.
4. Пирамидальный ФСМН
Пирамидальный FSMN (pFSMN) считает, что недостатком предыдущих моделей серии FSMN является то, что и нижний, и верхний уровни сети будут извлекать долговременную контекстную информацию, что приводит к повторным операциям. pFSMN предлагает модуль памяти в форме пирамиды, чем глубже сетевой уровень извлекает функции более высокого уровня, то есть нижний сетевой уровень извлекает фонематическую информацию, а верхний сетевой уровень извлекает семантическую информацию и синтаксическую информацию. Эта пирамидальная структура может одновременно повысить точность и уменьшить количество параметров модели. pFSMN уменьшает количество соединений с пропуском, используемых в DSFMN, и выполняет соединения с пропуском только при изменении размера модуля памяти. Модуль памяти рассчитывается как:
Помимо введения пирамидальной структуры, два других улучшения pFSMN:
- Основываясь на методе обработки изображений, 6-уровневый модуль Residual CNN добавляется перед уровнем FSMN для извлечения более надежных речевых признаков и уменьшения размерности признаков за счет понижения дискретизации.
- Средневзвешенное значение перекрестной потери энтропии (потери CE) и потери LF-MMI используется в качестве функции потерь, используемой при обучении модели. Причина введения потерь CE заключается в том, что их легко переобучить при обучении данных последовательности, а потеря CE эквивалентна эффекту регуляризации.
Рисунок 4. Структура пирамидальной модели FSMN
использованная литература:
[1] Zhang S, Jiang H, Wei S, et al. Feedforward sequential memory neural networks without recurrent feedback[J]. arXiv preprint arXiv:1510.02693, 2015.
[2] Zhang S, Liu C, Jiang H, et al. Feedforward sequential memory networks: A new structure to learn long-term dependency[J]. arXiv preprint arXiv:1512.08301, 2015.
[3] Zhang S, Jiang H, Xiong S, et al. Compact Feedforward Sequential Memory Networks for Large Vocabulary Continuous Speech Recognition[C]//Interspeech. 2016: 3389-3393.
[4] Zhang S, Lei M, Yan Z, et al. Deep-fsmn for large vocabulary continuous speech recognition[C]//2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018: 5869-5873.
[5] Yang X, Li J, Zhou X. A novel pyramidal-FSMN architecture with lattice-free MMI for speech recognition[J]. arXiv preprint arXiv:1810.11352, 2018.
Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~