Личный публичный номер: Али голосует за кормушку
Точная настройка BERT для экстрактивного суммирования: BERT и суммирование текста
Ссылка на бумагу:АР Вест V.org/PDF/1903.10…
Исходный код:GitHub.com/Усилия по развитию/Бер…
Руководство по серии бумаги BERT
Чему учит BERT: узнайте, почему BERT такой сильный
Технология квантования и динамическое квантование Альберта
DistillBert: Берт слишком дорого? Я дешевый и простой в использовании
[Обмен бумагами] | RoBERTa: Привет, XLNet здесь? Меня избили
Введение в статью XLNet - за спиной Берта
Управляемое чтение
Текстовые сводки в основном делятся на извлекаемые текстовые сводки и генеративные текстовые сводки.Извлекаемые текстовые сводки широко используются в отрасли из-за длительного времени их разработки. Наиболее часто используемый алгоритм извлечения сводных данных — это Textrank, но в этой статье будет представлена модель извлечения сводных данных, связанная с BERT. Конечно, в качестве сравнения эта статья также представляет другую статью, которая объединяет модели Textrank и BERT, надеясь вдохновить всех.
Bert With Summarization
Во-первых, давайте представим структуру модели.Выход исходного BERT предназначен для токенов вместо предложений, а вход исходного BERT имеет только два предложения, что не подходит для текстовых резюме.
Поэтому прежде всего автор внес некоторые изменения в структуру BERT, чтобы сделать ее более подходящей для задачи реферирования текста.Авторские изменения можно отразить на следующем рисунке:
- Автор использует [CLS] и [SEP] для различения каждого предложения. В исходном BERT [CLS] представляет содержание всего предложения или пары предложений. Здесь автор изменил структуру модели и использовал [CLS] для различения каждого предложения. .
- Автор добавляет сегментное вложение в каждое предложение. Вложение сегмента определяется порядком четности предложения. Например, для предложения [sen1, sen2, sen3, sen4, sen5] их сегментное вложение равно [EA, EB, EA , ЭБ, ЭА].
Summarization layer
После получения вектора предложения следующая задача — определить, должно ли предложение формировать сводку текста. Это работа двух категорий. Автор попробовал три слоя обобщения, а именно
-
Традиционный полносвязный слой
-
Inter-sentence Transformer
Структура показана на рисунке ниже.Вектор предложения исходной позиции представляет собой встраивание позиции, а вход каждой позиции представляет собой выходной результат после того, как вход предыдущей позиции проходит через слой внимания с несколькими головками, норму слоя и полносвязный слой. Окончательный результат по-прежнему представляет собой двоичную классификацию.
-
Слой RNN
Вот слой LSTM после BERT. LSTM — это структура, которая очень подходит для задач НЛП. Конечно, конечный результат также является результатом двоичной классификации.
Результаты экспериментов
Автор провел эксперименты с двумя общедоступными наборами данных, CNN Daily и NYT, и результаты экспериментов показаны на рисунке ниже.
- Ведущий состоит в том, чтобы извлечь первые три предложения текста в виде резюме.
- REFRESH — это система извлечения текста, оптимизированная для матрицы ROUGE.
- NEUSUM — это ультрасовременный эффект экстрактивного суммирования текста.
- PGN — это генератор указателей, который генерирует текстовые сводки.
- DCA - это современный эффект текущего генеративного суммирования текста.
Вывод: резюмирование извлеченного текста хуже, чем генеративное (даже PGN не так хорош, как правила?) Я настроен скептически. Эффект BERT+Transformer превышает эффект SOTA текущей модели извлечения.
недостаток:
- RNN - это однослойный и многослойный трансформатор, сравнение нецелесообразно.
- Результаты экспериментов показывают, что генеративная модель все же хуже результатов правил, это сомнительно
- Не объясняет, что делать с слишком длинным текстом
Рекомендуемая информация
Здесь я рекомендую другую статью — Пересмотр центральности предложений для неконтролируемого обобщения. В этой статье сочетаются алгоритмы Bert и Textrank и используется точно настроенный Bert в качестве кодировщика предложений для вычисления сходства между текстами. Конечный эффект также больше, чем эффект SOAT.
- Ссылка на бумагу:АР Вест V.org/PDF/1906.03…
- Исходный код:GitHub.com/ms хорошо хорошо/p…
Далее вопросы и размышления
- В чем разница между двумя статьями об использовании BERT
- Как PACSUM настроил BERT?