Точная настройка BERT для экстрактивного суммирования: BERT и суммирование текста

NLP

Личный публичный номер: Али голосует за кормушку

Точная настройка BERT для экстрактивного суммирования: BERT и суммирование текста

Ссылка на бумагу:АР Вест V.org/PDF/1903.10…

Исходный код:GitHub.com/Усилия по развитию/Бер…

Руководство по серии бумаги BERT

Чему учит BERT: узнайте, почему BERT такой сильный

TinyBert: Модель дистилляции для сверхдетализированных приложений, просто посмотрите на него, если у вас возникнут вопросы о дистилляции.

Технология квантования и динамическое квантование Альберта

DistillBert: Берт слишком дорого? Я дешевый и простой в использовании

[Обмен бумагами] | RoBERTa: Привет, XLNet здесь? Меня избили

Введение в статью XLNet - за спиной Берта

Управляемое чтение

Текстовые сводки в основном делятся на извлекаемые текстовые сводки и генеративные текстовые сводки.Извлекаемые текстовые сводки широко используются в отрасли из-за длительного времени их разработки. Наиболее часто используемый алгоритм извлечения сводных данных — это Textrank, но в этой статье будет представлена ​​модель извлечения сводных данных, связанная с BERT. Конечно, в качестве сравнения эта статья также представляет другую статью, которая объединяет модели Textrank и BERT, надеясь вдохновить всех.

Bert With Summarization

Во-первых, давайте представим структуру модели.Выход исходного BERT предназначен для токенов вместо предложений, а вход исходного BERT имеет только два предложения, что не подходит для текстовых резюме.

Поэтому прежде всего автор внес некоторые изменения в структуру BERT, чтобы сделать ее более подходящей для задачи реферирования текста.Авторские изменения можно отразить на следующем рисунке:

  1. Автор использует [CLS] и [SEP] для различения каждого предложения. В исходном BERT [CLS] представляет содержание всего предложения или пары предложений. Здесь автор изменил структуру модели и использовал [CLS] для различения каждого предложения. .
  2. Автор добавляет сегментное вложение в каждое предложение. Вложение сегмента определяется порядком четности предложения. Например, для предложения [sen1, sen2, sen3, sen4, sen5] их сегментное вложение равно [EA, EB, EA , ЭБ, ЭА].

Summarization layer

После получения вектора предложения следующая задача — определить, должно ли предложение формировать сводку текста. Это работа двух категорий. Автор попробовал три слоя обобщения, а именно

  1. Традиционный полносвязный слой

  2. Inter-sentence Transformer

    Структура показана на рисунке ниже.Вектор предложения исходной позиции представляет собой встраивание позиции, а вход каждой позиции представляет собой выходной результат после того, как вход предыдущей позиции проходит через слой внимания с несколькими головками, норму слоя и полносвязный слой. Окончательный результат по-прежнему представляет собой двоичную классификацию.

  1. Слой RNN

    Вот слой LSTM после BERT. LSTM — это структура, которая очень подходит для задач НЛП. Конечно, конечный результат также является результатом двоичной классификации.

Результаты экспериментов

Автор провел эксперименты с двумя общедоступными наборами данных, CNN Daily и NYT, и результаты экспериментов показаны на рисунке ниже.

  • Ведущий состоит в том, чтобы извлечь первые три предложения текста в виде резюме.
  • REFRESH — это система извлечения текста, оптимизированная для матрицы ROUGE.
  • NEUSUM — это ультрасовременный эффект экстрактивного суммирования текста.
  • PGN — это генератор указателей, который генерирует текстовые сводки.
  • DCA - это современный эффект текущего генеративного суммирования текста.

Вывод: резюмирование извлеченного текста хуже, чем генеративное (даже PGN не так хорош, как правила?) Я настроен скептически. Эффект BERT+Transformer превышает эффект SOTA текущей модели извлечения.

недостаток:

  1. RNN - это однослойный и многослойный трансформатор, сравнение нецелесообразно.
  2. Результаты экспериментов показывают, что генеративная модель все же хуже результатов правил, это сомнительно
  3. Не объясняет, что делать с слишком длинным текстом

Рекомендуемая информация

Здесь я рекомендую другую статью — Пересмотр центральности предложений для неконтролируемого обобщения. В этой статье сочетаются алгоритмы Bert и Textrank и используется точно настроенный Bert в качестве кодировщика предложений для вычисления сходства между текстами. Конечный эффект также больше, чем эффект SOAT.

Далее вопросы и размышления

  1. В чем разница между двумя статьями об использовании BERT
  2. Как PACSUM настроил BERT?