【НЛП】Грубое чтение UNILM

На прошлой неделе я говорил о модели MASS, которую я считаю очень хорошей.Применительно к BERT предлагается новый метод предобучения задачи Seq2Seq.Сегодня я расскажу о другой модели генерации на основе BERT-UNILM, которая также производится Microsoft.

Бумажная ссылка

Полное название UNILMПредварительное обучение унифицированной языковой модели для понимания и генерации естественного языка.На самом деле, он также предлагает метод предварительного обучения, и он очень прост.Хорошо напрямую повторно использовать структуру и параметры BERT. NLU напрямую создается с помощью BERT, а NLG напрямую рассматривает BERT S1 [SEP] S2 как кодер-декодер.Хотя такой структуры нет, она имеет в виду эту идею.

1. Структура модели

Автор ловко уловил суть MASK, и считает, что неважно, что такое LM, суть в том, какую информацию можно получить при обучении, а на уровне реализации, собственно, вопрос, какой ввод маскировать. Следовательно, можно интегрировать Seq2Seq LM в BERT.В S1 [SEP] S2 [SEP] S1 кодируется кодировщиком, и токен в S2 может получить информацию о токене только перед S1 и самим собой, как показано в маске матрица в нижней части рисунка выше (На самом деле картина четче, чем я сказал).

Основной принцип очень легко понять, в основном на бумаге, чтобы поближе познакомиться с деталями обучения.

2. Pre-training

Входное представление: здесь используются три внедрения, как и BERT, но применительно к WordPiece токены обрабатываются в подслова, что повышает производительность генеративной модели. Кроме того, авторы подчеркивают, что встраивание сегментов может помочь различать разные LM.
Трансформер: Без изменений, просто подчеркнул, что задача LM будет управляться разными матрицами Mask.
Односторонний LM: введите только одно предложение. Другие односторонние LM рассчитывают потерю каждого предсказания токена, и автор по-прежнему принимает идею Masked LM и вычисляет только потерю токена Mask. Лично я думаю, что это потому, что BERT действительно замыкается в предобучении (предсказывая текущую кодировку для [MASK]), чтобы реализовать BiLM, который явно не подходит для предсказания x2 для x1. Следовательно, чтобы унифицировать структуру однонаправленных LM и BiLM, применяется LM с маскированием слева направо.
Seq2Seq LM: введите два предложения. В первом предложении используется метод кодирования BiLM, а во втором предложении — односторонний метод LM. Обучайте кодер (BiLM) и декодер (Uni-LM) одновременно. При обработке ввода он также случайным образом маскирует некоторые токены.
Также включает задание «Следующее предложение».
Во время обучения в пакете распределение целей оптимизации состоит в том, чтобы использовать BiLM и следующее предложение в течение 1/3 времени, Seq2Seq LM в течение 1/3 времени и 1/6 времени для слева направо. и справа налево соответственно. Я не знаю, как это реализовать здесь.Это чтобы поместить разные данные в пакет? Знайте, что говорит детская обувь~
Параметры инициализируются из BERT-большой.
Частота добавления Mask такая же, как и у BERT, но при добавлении Mask в 80% случаев будет маскироваться случайная маска, а в 20% времени будет маскироваться биграмма или триграмма, что увеличивает прогностическую способность модель.

3. Fine-tunning

NLU: эталонный BERT
NLG: во время тонкой настройки маскируется только токен в предложении S2, и [SEP] S2 также маскируется случайным образом, чтобы модель научилась останавливаться.

4. Эксперимент

Генерирующее резюме: экстрактивное резюме добавляется в качестве вспомогательной задачи, чтобы предсказать, появится ли входное предложение в извлеченных данных в соответствии с первым токеном.
Ответы на вопросы (понимание прочитанного): превосходит BERT как в задачах извлечения SQuAD, так и в CoQA; особенно хорошо работает при ответах на генеративные вопросы,На 40 баллов меньше, чем улучшение PGNet в 2018 году..
Генерация вопросов: Используя сгенерированные вопросы, результаты SQuAD были улучшены на 4 балла.
КЛЕЙ: >= BERT для большинства задач, что дает окончательное улучшение на 0,3 балла.

5. Резюме

У UNILM и MASS одна и та же цель — объединить BERT и генеративные модели, но я лично считаю, что UNILM более элегантна. Прежде всего, унифицированный метод UNILM более лаконичен и улучшен с точки зрения матрицы масок, в то время как MASS по-прежнему меняет структуру BERT на Seq2Seq и использует кодировщик только при выполнении других задач, в отличие от UNILM, который делает все с одной структурой. UNILM дает больше результатов, особенно генеративный ответ на вопрос имеет огромное улучшение, а также гарантирует, что общий эффект сравним с BERT, в то время как MASS не уделяет слишком много внимания собственному кодировщику.

Тем не менее, UNILM и MASS не проводили одинаковых экспериментов и не могут сравниваться напрямую.Я лично считаю, что UNILM можно использовать в более простых генеративных задачах, но для сложных задач перевода, особенно при нехватке обучающего корпуса, MASS должен быть более подходящее.

Счастливый Праздник лодок-драконов!