Бумажные заметки -- "Абстрактное обобщение снизу вверх"

Источник: ЕМСЛП, 2018 г.
Ключевые слова: NLG, снизу вверх, суммирование текста.

1. Предыстория и описание проблемы (Аннотация)

Обобщение текста — это необходимость создания релевантных по содержанию текстовых резюме из длинных текстов. Методы генеративного суммирования текста на основе нейронных сетей могут давать очень гладкие результаты, но они плохо подходят для выбора контента. В этой статье представлен простой селектор содержимого (content selector), чтобы сначала решить, какая часть документа действительна, а затем нужно только сгенерировать сводку по этой части предложения. Эксперименты показывают, что этот метод может улучшить качество сжатия предложений, создавая при этом беглое резюме. Кроме того, этот двухкомпонентный подход проще и эффективнее, чем сквозная модель. Кроме того, селектор содержимого (content selector) для обучения требуется очень мало предложений для достижения хороших результатов, поэтому его очень легко перенести на другие модели.

2. Существующие решения

Текущая модель генеративного суммирования текста — это сквозная модель, реализованная с использованием моделей генератора указателей.

3. Обзор решения

предложено авторомBottom-UpРешение состоит в том, чтобы разделить общую сквозную модель на две части.Первый шаг — выбрать потенциально релевантные части из длинного документа, а затем выполнить общую сводную модель для выбранной части. Идея автора получена из CV.При распознавании объектов сначала нарисуйте рамку на изображении для определения диапазона, а потом нужно только ориентироваться на эту рамку.

Реализация селектора контента рассматривается какпроблема маркировки последовательности(проблема маркировки последовательности), автор может создать модель с полнотой более 60% и точностью 50%, используя только векторы слов Elmo.

Чтобы ввести результаты первого шага в последующую сводную модель, просто используйтеmaskingМеханизм ограничения копирования слов из исходного текста.

1.Bottom-Up Attention

Сначала определите общее определение суммирования текста: для текстовой пары $(X,Y)$ ,в, $x\in{X}$ представляет исходную последовательность $x_1,...,x_n$ , $y\in{Y}$ Представляет сгенерированную последовательность дайджеста $y_1,...,y_m$ ,в $m << n$ .

АвторВыбор контентаВ задаче маркировки последовательностей первым шагом является создание данных маркировки. Подход автора заключается в том, что наборы данных для суммирования текста обычно представляют собой пары «документ-резюме», поэтому авторы объединяют сводки с документами для построения контролируемых данных. Подробно по токену в документации $x_i$ выбирается, когда:

это в самой длинной возможной последовательности $s=x_{i-j:i:i+k}$ в, в то же время $s\in{x}$ и $s\in{y}$ .
не существовало ранее с $s$ равная последовательность.

После построения обучающих данных необходимо обучить обычную модель маркировки последовательностей.Автор вводит и использует ELMo для обучения двухслойной модели LSTM, а затем вычисляет вероятность выбора каждой позиции.

2.Bottom-Up Copy Attention

Автор обнаружил, что кодировщик может лучше воздействовать непосредственно на исходную кодировку. Итак, на этапе обучения тренируйте указатель-генератор отдельно модель иселектор контента. На этапе вывода сначала рассчитайте вероятность выбора всех токенов в источнике. $q_{1:n}$ , а затем используйте его, чтобы повлиять на вероятность копирования в модели копирования, чтобы невыбранные токены не копировались. сделать $a^i_j$ Представляет вероятность копирования iword в источнике на шаге j, а скорректированная вероятность равна, где $\epsilon$ является пороговым значением между 0,1-0,2:

公式1

Обратите внимание, что, поскольку скорректированное распределение вероятностей больше не является правильным, его необходимо повторно нормализовать.

3. Сквозная схема

Хотя «двухшаговая» идея очень проста и эффективна, автор все же попытался обучить на одной модели, догадавшись, что стандартную модель копирования можно обучить вместе с периодом выбора контента. Автор устанавливает три режима:

Только маска.
Многозадачное обучение. Задача аннотации последовательности и задача суммирования текста одновременно обучаются с использованием общего кодировщика. Тем не менее, это все еще «двухэтапная» стратегия на этапе прогнозирования.
перекрестное обучение. В процессе обучения прямо копируйте вероятность $a^i_j$ с вероятностью выбора $q_i$ Умножить.

4. Фаза вывода

Для сети длинных документов текущего поколения существуют две основные проблемы: 1. Создание неправильной длины. 2. Повторяйте слова. Автор вводит два штрафа в функцию подсчета очков: штраф за длину $lp (length penalty)$ и штраф за покрытие $cp(coverage penalty)$ . $s(x,y) = \log{p(y|x)}/lp(x) + cp(x;y)$

Среди них штраф за длину $lp (length penalty)$ Это должно стимулировать создание более длинных последовательностей, что необходимо учитывать на этапе поиска луча. 2021-01-22 14-22-36屏幕截图.png-7.1kB

Покрытие штрафа $cp(coverage penalty)$ Чтобы предотвратить чрезмерное повторение, авторы вводят новый метод:

2021-01-22 14-24-25屏幕截图.png-17.1kB

4. Анализ результатов

2021-01-22 14-26-28屏幕截图.png-255.1kB

На приведенном выше рисунке эксперимент на CNN-DM показывает, что:

Автор придумал, что ни одна из сквозных схем не сработала.
Предложенный в данной статье «двухэтапный» метод «снизу вверх» значительно улучшает результаты.
Модели, обученные с помощью кросс-энтропии, превосходят модели, обученные с помощью обучения с подкреплением.

2021-01-22 14-30-15屏幕截图.png-58.9kB

Картинка вышеселектор контентаЭкспериментальные результаты показывают, что только несколько предложений, более 1000 предложений, могут дать хорошие результаты.

2021-01-22 14-33-11屏幕截图.png-51.5kB

Приведенное выше изображение основано на исходной модели генератора очков, и эффекты трех стратегий штрафов проверяются на этапе вывода.Можно обнаружить, что три штрафа очень эффективны, и три индикатора улучшаются одновременно. . В то же время это также показывает, что исходная модель Point-generator уже может очень хорошо решать проблему суммирования текста, и было бы еще лучше, если бы какая-то обработка была добавлена на этапе прогнозирования!

5. Инновация или вклад

В этой статье предлагается простой, но эффективныйМодель выбора контентадля решения проблем с реферированием текста.
Авторы обнаружили, что восходящий подход «двух прогулок» был более эффективным.
Предложенный автором метод имеет низкую эффективность данных и может быть легко перенесен на другие наборы данных.
Авторы вводят две стратегии наказания, которые оказались очень эффективными.

6. Личное мышление

Базовой моделью этой статьи является сеть генераторов указателей, которая является очень практичным улучшением.Есть три основных момента, которые можно рассмотреть:

Идея использования стратегии «снизу вверх» + «двухшаговая»
Добавление штрафа за длину к этапу поиска луча может генерировать более длинные и богатые последовательности результатов.
Для работы с дубликатами используется новый штраф за покрытие.