Paper Notes -- "Предобучение унифицированной языковой модели для понимания естественного языка

Источник: Нейрипс 2019
Ключевые слова: предварительно обученная модель, NLG.

1. Предыстория и описание проблемы

В этой статье предлагается предварительно обученная языковая модель, специально подготовленная для NLU и NLG, которая обучается с использованием трех задач языковой модели. Эта модель значительно улучшила задачу NLG: например, в наборе данных CNN/DailyMail ROUGE-L достиг 40,51, что на два пункта выше, чем у предыдущей SOTA.

2. Существующие решения

Появление предварительно обученных языковых моделей значительно улучшило контрольный показатель для различных задач NLP, таких как ELMo, который обучается с помощью двух однонаправленных языковых моделей, одной слева направо и одной справа налево. GPT с использованием одностороннего преобразователя с большим количеством высококачественных наборов данных также добился хороших результатов. BERT реализует двустороннюю языковую модель, случайным образом охватывая токен, а затем используя левый и правый контекст для его предсказания, но эта двусторонняя стратегия по своей сути не подходит для задач NLG.

3. Обзор решения

模型结构

Основа UNILM такая же, как у BERT.Он использует многоуровневый преобразователь.Идея реализации языковой модели такая же, как у BERT.Модель обучается путем предсказания токена маски. Просто UNILM вводит идею нескольких задач для лучшего изучения моделей.

Input Representation

На вход модели подается последовательность, которая может быть сегментом или парой сегментов в соответствии с разными задачами LM. Добавьте [SOS] в начале последовательности композиции и [EOS] в конце каждой последовательности. [EOS] — это не только флаг конца последовательности, но и флаг окончания декодирования задачи NLG. На входе модели каждая позиция состоит из трех вложений: встраивания токена, полученного WordPiece, встраивания позиции и встраивания сегмента. Поскольку UNILM использует несколько LM, встраивание сегментов также можно использовать для различения разных типов LM.

Магистраль: многослойный преобразователь

2020-12-16 18-32-46屏幕截图.png-23.8kB Здесь матрица маски используется для управления направлением языковой модели.Слева-направо LM является примером.При прогнозировании определенного токена позиции для вычисления используется только позиция перед ним и его собственный вектор вероятность. Для реализации можно установить все диагональные линии матрицы маски на отрицательную бесконечность, чтобы внимание, рассчитанное softmax $A_l$ Он равен 0, то есть вектор следующей позиции не рассматривается.

предтренировочная цель

Предварительное обучение UNILM использует четыре задачи на понимание прочитанного, то есть случайным образом заменяет токен на [MASK], а затем использует вектор вокруг [MASK], рассчитанный Transformer, для предсказания токена в этой позиции, и использует softmax для вычисления вероятность распределения слов в словаре, наконец, минимизировать кросс-энтропийные потери. Четыре языковые модели, используемые UNILM, следующие:

Unidirectional LM, односторонняя языковая модель, реализованная с использованием матрицы маски.
Bidirectional LM, Как и BERT, матрица маски устанавливается на 0 для достижения.
Sequence-to-Sequence LM, В этой задаче нужна пара сегментов, один как источник, а другой как цель, и по-прежнему случайным образом заменяется токен на [MASK] на двух сегментах. Разница в том, что [MASK] в источнике прогнозируется с использованием двунаправленного контекста, а [MASK] в target может быть предсказан только с использованием контекста предыдущей позиции и самого себя, включая источник. Настройка матрицы маски показана на рисунке выше, источник установлен в 0, а позиция, соответствующая цели ниже, находится в $s_2-s_2$ Верхняя часть секции настроена на отрицательную бесконечность. В этом режиме обучения, поскольку источник и цель рассматриваются как непрерывная последовательность, этот дизайн позволяет модели неявно изучать некоторую информацию о взаимосвязи между двумя сегментами.Чтобы лучше предсказать токен в цели, модель научится Эффективное использование информации в источнике.Следовательно, этот LM Sequence-to-Sequence может одновременно предварительно обучать двусторонний кодировщик и односторонний кодировщик., поэтому эта модель подходит для генерации текста условия.
Next Sentence Prediction, то же, что и БЕРТ.

Pre-training Setup

Использование модели UNILM $BERT_{large}$ Для базового обучения в тренировочной партии используется режим LM+NSP для обучения, при котором LM обучается поочередно с использованием трех вышеперечисленных режимов. В частности, двунаправленный LM используется в течение 1/3 времени, последовательный LM используется в течение 1/3 времени, однонаправленный LM слева направо используется в течение 1/6 времени, а однонаправленный LM используется справа налево в 1/6 случаев. Стратегия маски почти такая же, как и у BERT, с одним отличием: 80% случайным образом маскируют один токен, а 20% маскируют два токена или три токена (биграмму, триграмму).

Fine-tuning

Для тонкой настройки задачи NLG на вход постройте последовательность вида *"[SOS] source [EOS] target [EOS]"*, только случайным образом замаскируйте токен в target, а затем пусть модель предсказать токен в замаскированной позиции. Поскольку флаг [EOS] также может быть замаскирован, поэтому на этапе кодирования встреча с [EOS] является конечным флагом.

4. Анализ результатов

Значительное улучшение производительности при выполнении задач NLG.

Рисунок 1 выше — задание на обобщение текста, рисунки 2 и 3 — вопросы экстрактивного контроля качества, на которые нужно найти правильный ответ из статьи; Рисунок 4 — задача генерации вопросов (Question Generation), которая представляет собой типичный вопрос от последовательности к последовательности.Источником входной последовательности являются сообщение и ответ, а целью — сгенерированный вопрос. Эта модель также использует результаты SOTA.

5. Инновация или вклад

Модель UNILM в этой статье использует ту же многоуровневую языковую модель Transformer, и несколько задач LM имеют общие параметры, и эффект обучения лучше.
Дизайн «общих параметров» позволяет модели изучать более общие текстовые представления, поскольку модель UNILM перекрестно обучается с различными целями языковой модели для изучения контекстных знаний несколькими способами.Это может эффективно избежать проблемы переобучения в одном LM..
Поскольку UNILM использует языковую модель seq_2_seq, она естественным образом подходит для задач NLG.

6. Личное мышление

Эта статья 2019 года находится на стадии подготовки к обучению языковой модели.Модель в этой статье обучается путем введения трех языковых моделей и легко реализуется с помощью матрицы масок, особенно односторонней языковой модели + языковой модели seq_2_seq. , модель очень подходит для задач, связанных с NLG.