Аннотация: Изучив множество статей, автор обнаружил, что методы прогнозирования предварительно обученных моделей речи можно в основном разделить на следующие три категории: Использование предыдущего текста для прогнозирования текущего и последующего текста (авторегрессия) Произвольно маскируйте некоторые кадры и предскажите Предскажите промежуточные кадры с контекстом с обеих сторон.
Эта статья опубликована в сообществе Huawei Cloud Community "Резюме исследования предварительно обученной модели речи, Хадсон.
Изучив множество статей, автор обнаружил, что методы прогнозирования предварительно обученных моделей речи можно в основном разделить на следующие три категории: Использование предыдущего текста для прогнозирования текущего и последующего текстов (авторегрессия) Случайная маска некоторые кадры и прогнозировать Прогнозировать промежуточные кадры с контекстом с обеих сторон. Далее будут представлены методы предварительной подготовки моделей речи в соответствии с этими тремя категориями.
1. Используйте предыдущую информацию, чтобы предсказать текущую информацию и последующую информацию
(1) Цена за клик и модифицированная цена за клик
CPC (Contrastive Predictive Coding) [1] — это ранее предложенная модель в предварительно обученных речевых моделях. Его модельная архитектура показана на рисунке ниже.
Во-первых, речевой сигнал делится на сегменты и вводится в модель CNN для извлечения признаков.Выход Z слоя CNN затем используется в качестве входа слоя GRU для получения выходного C с информацией о времени, а затем используется текущий время t с информацией о времени.Ct (информация до того, как последовательность была просмотрена), чтобы предсказать выход уровня CNN Zt+k в последующие k моментов. Убыток является контрастным убытком, и его формула показана на рисунке ниже.
Эта потеря выглядит сложной, но принцип очень прост, он заключается в том, чтобы сделать прогнозируемое значение на основе Ct ближе к Zt+k (числитель) и дальше от выхода Z других слоев CNN, то есть отрицательной выборке (знаменатель ). Минимизация общих потерь максимизирует числитель и минимизирует знаменатель. Вот как работает обучение CPC.
Модифицированная цена за клик [2] является улучшением по сравнению с ценой за клик. Улучшение в основном делится на следующие два пункта:
Поскольку нормализация пакетов уничтожит информацию о последовательности, они используют нормализацию по каналам вместо нормализации пакетов.
Некоторые улучшения модели, в том числе замена сети, предсказывающей Zt+k из Ct, с линейного слоя на слой преобразователя, изменение размерности слоя CNN с 512 до 256 (память меньше, но производительность остается то же); заменен на LSTM GRU.
(2) БТР и VQ-БТР
APC (Autoregressive Predictive Coding) [3] и его усовершенствование, VQ-APC (Vector Quantization-Autoregressive Predictive Coding) [4] также представляет собой набор предварительно обученных речевых моделей, основанных на авторегрессии, и архитектура их модели показана на рисунке ниже. APC не имеет слоя VQ, а VQ-APC добавляет слой VQ.
Входными данными модели APC является функция 80-мерной логарифмической спектрограммы Мела, и модель также очень проста и представляет собой трехслойную LSTM. Потери при обучении показаны на рисунке ниже.
Здесь мы видим, что это простая потеря L1, но разница в том, что она не выполняет потерю L1 между xi и yi одновременно, а использует потерю L1 между xi+n и yi. То есть он надеется использовать информацию в i-й раз, чтобы предсказать информацию через n раз, Причина этого в том, чтобы надеяться, что LSTM не попадет в локальную информацию, чтобы он мог вывести более глобальную информацию (глобальная структура).
VQ-APC добавляет слой VQ в APC. VQ, векторное квантование, можно просто понимать как кластеризацию бесконечных возможных непрерывных векторов, так что вектор представления речи также становится конечным числом возможностей, подобно ограниченному количеству словесных представлений в НЛП (одно слово для одного представления, дословное представление) ограниченное количество). Экспериментальные результаты показывают, что добавление слоя VQ в середину слоя LSTM модели APC улучшит окончательное представление изученного вектора и продемонстрирует более высокую производительность в последующих задачах (таких как классификация телефонов, классификация говорящих).
2. Произвольно замаскируйте некоторые кадры и предскажите
(1) VQ-wav2vec и wav2vec2.0
Представленные выше четыре модели основаны на идее авторегрессии.Предыдущая информация используется для прогнозирования последующей информации.Модель также реализована на основе модуля LSTM или GRU. Поскольку было доказано, что преобразователь обладает превосходной производительностью при выполнении все большего числа задач, многие исследователи предварительно обученных моделей речи также обратили свое внимание на модель преобразователя. VQ-wav2vec [5] — одна из первых попыток. На следующем рисунке представлена схема архитектуры модели VQ-wav2vec.
Исходный аудиоклип сначала вводится на уровень CNN для извлечения функций, затем выполняется VQ, и, наконец, выходные данные VQ вводятся на следующий уровень CNN для абстракции функций. Наконец, используйте выходные данные Ci слоя CNN в i-й момент, чтобы предсказать выходные данные Zi+k VQ в следующие k моментов, и сделайте контрастные потери, чтобы Ci мог лучше предсказывать Zi+k, и держитесь подальше от отрицательный образец (другие Z, не являющиеся Zi+k). После обучения выходные данные слоя VQ используются в качестве входных данных для следующего BERT, а некоторые кадры случайным образом маскируются и прогнозируются, а модель BERT обучается для получения представления с информацией о времени. Наконец, эта информация используется в качестве входных данных акустической модели для последующих задач.
Вышеупомянутая модель предназначена для обучения BERT и VQ-wav2vec по отдельности, сначала для обучения VQ-wav2vec, а затем для обучения модели BERT. А wav2vec2.0 [6] улучшил общую структуру VQ-wav2vec, объединил модель VQ-wav2vec и модель BERT для совместного обучения и добился очень хороших результатов (текущий уровень техники). Структура модели Wav2vec2.0 показана на рисунке ниже.
Во-первых, аудио также сегментируется в слой CNN для извлечения признаков, а затем вводится в слой VQ, с одной стороны, и случайным образом маскируется некоторые кадры, а затем вводится в слой Transformer для извлечения представления контекста C. Потери при обучении показаны на рисунке ниже.
Убыток – это наложение двух частей убытка. Первая часть потери - это контрастная потеря, цель которой состоит в том, чтобы сделать сходство контекстного представления (Ct) и квантованного представления (Qt) в один и тот же момент как можно большим, а сходство Ct и квантованного представления представительство в другие моменты как можно меньше. Вторая часть потери - это потеря разнообразия, которая используется для поощрения использования каждого кодового слова (вектор дискретной категории после операции VQ, аналогично слову в словаре в НЛП) с одинаковой вероятностью. После обучения модели представление контекста можно использовать для последующих задач.
(2) Сойка-пересмешница и Аудио Альберт и TERA
В дополнение к двум вышеупомянутым моделям существует также ряд моделей (обе из Речевой группы Национального Тайваньского университета), которые также основаны на модели преобразователя, в которой используется случайное маскирование для пропуска некоторых кадров и прогнозирования предварительной подготовки речи. модель речи. Первая работа — «Сойка-пересмешница» [7], модельная структура которой показана на следующем рисунке. Сначала извлеките некоторые созданные вручную функции (fMLLR, MFCC, FBank) и выполните случайное маскирование, затем после понижения дискретизации введите их в модель преобразователя, чтобы предсказать замаскированный кадр и выполнить потери L1.
На основе модели Mockingjay модель Audio Albert [8] была немного улучшена. На картинке ниже показана разница между моделями Audio Albert и Mockingjay. Видно, что Audio Albert основан на усовершенствовании Mockingjay, которое заключается в совместном использовании параметров многослойных преобразователей. В остальном разницы нет. За счет этого улучшения параметры эффекта и не разделяемого сравнимы (сопоставимы), но количество параметров может быть значительно уменьшено.
Существует также улучшенная модель на основе Mockingjay, TERA (Transformer Encoder Representations from Alteration) [9], которая выполняет некоторые изменения на входе на входной стороне, чтобы улучшить эффект предварительно обученной модели. На следующем рисунке схематически показано, как TERA выполняет изменение входных данных. Изменения в основном делятся на три типа: маскирование во временном измерении, маскирование в измерении признаков и добавление белого гауссовского шума ко всему сегменту.
3. Прогнозировать промежуточные кадры с контекстной информацией с обеих сторон
В дополнение к двум вышеуказанным методам предварительного обучения существует также метод предварительного обучения - предсказание информации промежуточного кадра с информацией с обеих сторон.Модель NPC (Non-Autoregressive Predictive Coding) [10] предварительно тренировался таким образом. На рисунке ниже показан каркас модели NPC.
Входные данные — MFCC (80dim), но когда модель NPC обучена, входная модель — это не вся последовательность, ей нужно только ввести несколько кадров до и после замаскированного кадра (например, 10 кадров до и после) и замаскированный кадр обычно составляет 3 кадра. Маска отбрасывает 3 кадра вместо 1 кадра, что может помешать модели напрямую скопировать значение соседних точек (xt-1, xt+1) точки маски в качестве прогнозируемого значения входа xt в текущий момент, тем самым предотвращение того, чтобы прогнозируемое значение yt было связано с приростом информации xt. После ввода замаскированного ввода в модель, после нескольких слоев ConvBlock, каждый слой ConvBlock также будет маскировать средний кадр и будет увеличиваться слой за слоем, цель состоит в том, чтобы предотвратить выход yt от просмотра любых данных в пределах размера маски. . После нескольких слоев ConvBlock данные будут складываться, чтобы получить ht (скрытое представление перед VQ в текущий момент), ht пройдет через VQlayer и линейный слой, и, наконец, предскажет промежуточный кадр xt, и использует L1 Loss для потеря. Эффект этой модели лучше, чем у авторегрессионной модели, и она позволяет значительно уменьшить размер модели.
Суммировать
Предобучение речевых моделей — очень популярное направление научных исследований в речевой индустрии. Пока что модели на основе трансформатора лучше, чем более ранние модели на основе LSTM или GRU. Если вы стремитесь к производительности, в настоящее время признано, что лучшей предварительно обученной моделью речи должна быть wav2vec 2.0. Но если вы стремитесь к скорости, хорошим выбором будут модели Audio ALBERT и NPC.Эти две модели могут уменьшить размер модели и повысить скорость модели, обеспечивая сопоставимую производительность. Считается, что в ближайшем будущем, с дальнейшим развитием технологии глубокого обучения, предварительно обученная модель речи откроет новые улучшения как в производительности, так и в скорости.
Reference
[1] Оорд, Аарон ван ден, Яже Ли и Ориол Виньялс, «Обучение представлению с контрастным прогностическим кодированием», препринт arXiv arXiv: 1807.03748 (2018).
[2] Ривьер, Морган и др. «Неконтролируемое предварительное обучение хорошо переносится на разные языки». ICASSP 2020–2020 Международная конференция IEEE по акустике, обработке речи и сигналов (ICASSP). IEEE, 2020.
[3] Чанг, Ю-Ан и др. «Неконтролируемая авторегрессионная модель для обучения речевому представлению».
[4] Чанг, Ю-Ан, Хао Тан и Джеймс Гласс, «Векторно-квантованное авторегрессионное прогностическое кодирование», препринт arXiv arXiv: 2005.08392 (2020).
[5] Баевский, Алексей, Штеффен Шнайдер и Майкл Аули, «vq-wav2vec: самоконтролируемое обучение дискретным речевым представлениям», препринт arXiv arXiv: 1910.05453 (2019).
[6] Баевский, Алексей и др. «wav2vec 2.0: платформа для самостоятельного обучения речевым представлениям».
[7] Лю, Энди Т. и др. «Сойка-пересмешница: неконтролируемое обучение представлению речи с помощью глубоких двунаправленных преобразователей».
[8] Чи, По-Хан и др. «Аудио Альберт: Облегченный курс для самостоятельного обучения представлению аудио». Семинар IEEE по технологиям разговорного языка (SLT) IEEE, 2021 г.
[9] Лю, Энди Т., Шанг-Вен Ли и Хунг-и Ли, «Тера: самоконтролируемое обучение представлению кодировщика преобразователя для речи», IEEE/ACM Transactions on Audio, Speech, and Language Processing 29 (2021). ): 2351-2366.
[10] Лю, Александр Х., Ю-Ан Чанг и Джеймс Гласс, «Неавторегрессивное прогностическое кодирование для изучения представлений речи на основе локальных зависимостей», препринт arXiv arXiv: 2011.00406 (2020).
Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~