Paper Notes -- "Предобучение унифицированной языковой модели для понимания естественного языка

NLP

Источник: Нейрипс 2019
Ключевые слова: предварительно обученная модель, NLG.


1. Предыстория и описание проблемы

В этой статье предлагается предварительно обученная языковая модель, специально подготовленная для NLU и NLG, которая обучается с использованием трех задач языковой модели. Эта модель значительно улучшила задачу NLG: например, в наборе данных CNN/DailyMail ROUGE-L достиг 40,51, что на два пункта выше, чем у предыдущей SOTA.

2. Существующие решения

Появление предварительно обученных языковых моделей значительно улучшило контрольный показатель для различных задач NLP, таких как ELMo, который обучается с помощью двух однонаправленных языковых моделей, одной слева направо и одной справа налево. GPT с использованием одностороннего преобразователя с большим количеством высококачественных наборов данных также добился хороших результатов. BERT реализует двустороннюю языковую модель, случайным образом охватывая токен, а затем используя левый и правый контекст для его предсказания, но эта двусторонняя стратегия по своей сути не подходит для задач NLG.

3. Обзор решения

模型结构

Основа UNILM такая же, как у BERT.Он использует многоуровневый преобразователь.Идея реализации языковой модели такая же, как у BERT.Модель обучается путем предсказания токена маски. Просто UNILM вводит идею нескольких задач для лучшего изучения моделей.

  1. Input Representation

На вход модели подается последовательность, которая может быть сегментом или парой сегментов в соответствии с разными задачами LM. Добавьте [SOS] в начале последовательности композиции и [EOS] в конце каждой последовательности. [EOS] — это не только флаг конца последовательности, но и флаг окончания декодирования задачи NLG. На входе модели каждая позиция состоит из трех вложений: встраивания токена, полученного WordPiece, встраивания позиции и встраивания сегмента. Поскольку UNILM использует несколько LM, встраивание сегментов также можно использовать для различения разных типов LM.

  1. Магистраль: многослойный преобразователь

2020-12-16 18-32-46屏幕截图.png-23.8kBЗдесь матрица маски используется для управления направлением языковой модели.Слева-направо LM является примером.При прогнозировании определенного токена позиции для вычисления используется только позиция перед ним и его собственный вектор вероятность. Для реализации можно установить все диагональные линии матрицы маски на отрицательную бесконечность, чтобы внимание, рассчитанное softmaxAlA_lОн равен 0, то есть вектор следующей позиции не рассматривается.

  1. предтренировочная цель

Предварительное обучение UNILM использует четыре задачи на понимание прочитанного, то есть случайным образом заменяет токен на [MASK], а затем использует вектор вокруг [MASK], рассчитанный Transformer, для предсказания токена в этой позиции, и использует softmax для вычисления вероятность распределения слов в словаре, наконец, минимизировать кросс-энтропийные потери. Четыре языковые модели, используемые UNILM, следующие:

  • Unidirectional LM, односторонняя языковая модель, реализованная с использованием матрицы маски.
  • Bidirectional LM, Как и BERT, матрица маски устанавливается на 0 для достижения.
  • Sequence-to-Sequence LM, В этой задаче нужна пара сегментов, один как источник, а другой как цель, и по-прежнему случайным образом заменяется токен на [MASK] на двух сегментах. Разница в том, что [MASK] в источнике прогнозируется с использованием двунаправленного контекста, а [MASK] в target может быть предсказан только с использованием контекста предыдущей позиции и самого себя, включая источник. Настройка матрицы маски показана на рисунке выше, источник установлен в 0, а позиция, соответствующая цели ниже, находится вs2s2s_2-s_2Верхняя часть секции настроена на отрицательную бесконечность. В этом режиме обучения, поскольку источник и цель рассматриваются как непрерывная последовательность, этот дизайн позволяет модели неявно изучать некоторую информацию о взаимосвязи между двумя сегментами.Чтобы лучше предсказать токен в цели, модель научится Эффективное использование информации в источнике.Следовательно, этот LM Sequence-to-Sequence может одновременно предварительно обучать двусторонний кодировщик и односторонний кодировщик., поэтому эта модель подходит для генерации текста условия.
  • Next Sentence Prediction, то же, что и БЕРТ.
  1. Pre-training Setup

Использование модели UNILMBERTlargeBERT_{large}Для базового обучения в тренировочной партии используется режим LM+NSP для обучения, при котором LM обучается поочередно с использованием трех вышеперечисленных режимов. В частности, двунаправленный LM используется в течение 1/3 времени, последовательный LM используется в течение 1/3 времени, однонаправленный LM слева направо используется в течение 1/6 времени, а однонаправленный LM используется справа налево в 1/6 случаев. Стратегия маски почти такая же, как и у BERT, с одним отличием: 80% случайным образом маскируют один токен, а 20% маскируют два токена или три токена (биграмму, триграмму).

  1. Fine-tuning

Для тонкой настройки задачи NLG на вход постройте последовательность вида *"[SOS] source [EOS] target [EOS]"*, только случайным образом замаскируйте токен в target, а затем пусть модель предсказать токен в замаскированной позиции. Поскольку флаг [EOS] также может быть замаскирован, поэтому на этапе кодирования встреча с [EOS] является конечным флагом.

4. Анализ результатов

  1. Значительное улучшение производительности при выполнении задач NLG.

1 2 3 4

Рисунок 1 выше — задание на обобщение текста, рисунки 2 и 3 — вопросы экстрактивного контроля качества, на которые нужно найти правильный ответ из статьи; Рисунок 4 — задача генерации вопросов (Question Generation), которая представляет собой типичный вопрос от последовательности к последовательности.Источником входной последовательности являются сообщение и ответ, а целью — сгенерированный вопрос. Эта модель также использует результаты SOTA.

5. Инновация или вклад

  1. Модель UNILM в этой статье использует ту же многоуровневую языковую модель Transformer, и несколько задач LM имеют общие параметры, и эффект обучения лучше.
  2. Дизайн «общих параметров» позволяет модели изучать более общие текстовые представления, поскольку модель UNILM перекрестно обучается с различными целями языковой модели для изучения контекстных знаний несколькими способами.Это может эффективно избежать проблемы переобучения в одном LM..
  3. Поскольку UNILM использует языковую модель seq_2_seq, она естественным образом подходит для задач NLG.

6. Личное мышление

  1. Эта статья 2019 года находится на стадии подготовки к обучению языковой модели.Модель в этой статье обучается путем введения трех языковых моделей и легко реализуется с помощью матрицы масок, особенно односторонней языковой модели + языковой модели seq_2_seq. , модель очень подходит для задач, связанных с NLG.