BERT использует модель маскированного языка (MLM) в процессе обучения, чтобы случайным образом блокировать некоторые слова и предсказывать эти слова.Обучение BERT требует большого количества вычислений. ELECTRA предлагает новый метод предварительного обучения, обнаружение замененных токенов (RTD).Процесс обучения похож на GAN.Генератор используется для замены слов в предложении, а затем дискриминатор определяет, какие слова в предложении были заменены. ELECTRA превосходит BERT и RoBERTa и достигает аналогичных результатов, используя только 1/4 вычислительной мощности RoBERTa.
1.ELECTRA
Предобучающей задачей для BERT является MLM, который случайным образом выбирает 15% слов во входном предложении, а затем заменяет 80% слов на [mask], 10% остаются прежними, а 10% заменяются случайным образом. Затем BERT предскажет 15% слов и восстановит их до реальных слов. Например, если входным предложением является «художник продал картину», MLM заменяет картину на [маска], чтобы получить «художник продал [маску]», а затем BERT хочет предсказать, какое реальное слово [маска] является.
Предобучающая задача МЛМ имеет некоторые недостатки:
- Каждое обучение предсказывает только 15% слов, что является пустой тратой вычислительной мощности.
- [маска] появляется только во время обучения, а не во время реального прогнозирования, что приводит к несоответствиям между обучением и выводом.
ELECTRA предлагает задачу предварительного обучения «Обнаружение замененного маркера» (RTD) для этих проблем BERT, и ее процесс обучения аналогичен GAN, как показано на следующем рисунке.
ELECTRA состоит из двух частей.Первая часть генератор.Генератор заменяет некоторые слова в предложении.Например,картина на рисунке заменяется машиной. Вторая часть — дискриминатор (Discriminator).Дискриминатор используется для определения того, было ли заменено каждое слово в предложении.Обучающий процесс будет предсказывать все слова, что более эффективно, чем BERT.
Generator
Если в ELECTRA используется простая случайная замена, то дискриминатор может легко определить, было ли слово заменено, например, если картина в предложении «художник продал картину» случайно заменена воздухом, дискриминатор может легко судить. Воздух в "Художник продал воздух" заменен.
Поэтому ELECTRA использует МЛМ для обучения генератора, который также является случайной частью [маска] слова, а затем заменяет слово на результат, предсказанный генератором.Например, Генератор заменяет рисование на [маска], а затем предсказывает положение автомобиля при прогнозировании. Неправильные слова, предсказанные Генератором, еще больше сбивают с толку. Генератор использует softmax при прогнозировании следующей формулы, в которой hG представляет закодированный вектор, e(x) представляет вложение слова x, а t представляет позицию.
Discriminator
Дискриминатор получает предложения, сгенерированные генератором, и предсказывает, было ли каждое слово заменено или нет. Этот процесс предсказывает все слова в предложении, поэтому он более эффективен, чем BERT. Окончательный обученный дискриминатор будет использоваться для последующих задач. Формула предсказания Дискриминатора выглядит следующим образом:
Общая функция потерь
Функция потерь популяции ELECTRA состоит из функции потерь LMLM генератора и функции потерь LDisc дискриминатора. Функция потерь при обучении генератора по-прежнему является функцией потерь MLM, основная причина в том, что генератор заменяет слова, а слова являются дискретными, что приводит к прерыванию градиента от дискриминатора к генератору. Таким образом, функция потерь ELECTRA состоит из сложения этих двух частей.
2. Экспериментальные результаты
совместное использование параметров
ELECTRA пытается совместно использовать параметры генератора и дискриминатора, используя генератор и дискриминатор одинакового размера. Оценка GLUE, полученная в эксперименте без совместного использования каких-либо параметров, составляет 83,6, оценка GLUE после совместного использования слоя встраивания слов составляет 84,3, а оценка GLUE после совместного использования всех параметров составляет 84,4. Поэтому автор использует метод совместного встраивания слов.Автор считает, что генератор может лучше обучиться встраиванию слов, что в основном связано с тем, что генератор вычисляет софтмакс для всех слов при обучении, и может использовать встраивание все слова.
размер генератора
Автор также сравнил влияние различных размеров генератора и дискриминатора на производительность модели.Экспериментальные результаты показаны на следующем рисунке.
На рисунке по оси абсцисс отложен размер генератора, а по оси ординат — показатель КЛЕЙ. Видно, что слишком большой размер генератора повлияет на производительность модели. Лучший размер генератора — 1/4. ~1/2 меньшего дискриминатора. В основном это связано с тем, что генератор слишком мощный, что затрудняет обучение дискриминатора.
Сравнение методов обучения
В предыдущем разделе упоминался метод обучения ELECTRA, который в основном оптимизирует функцию потерь генератора и дискриминанта. В статье автор также сравнивает два других метода обучения:
- Двухэтапный: поочередно обучайте генератор и дискриминатор, например, исправьте дискриминатор, обучите генератор n раз, затем исправьте генератор и обучите дискриминатор n раз. Эти два шага чередуются.
- Состязательный: Примите идею состязательного обучения в GAN, чтобы максимизировать потери RTD дискриминатора.
Видно, что метод обучения ELECTRA относительно лучше, а метод Two-Stage — худший, но все же лучше, чем BERT.
По сравнению с БЕРТом RoBERTa
Абсцисса на приведенном выше рисунке — это общее количество вычислений с плавающей запятой, FLOP (операций с плавающей запятой), которые используются для представления объема вычислений, а ордината — это оценка GLUE. Можно видеть, что ELECTRA может достичь аналогичной производительности, когда количество вычислений составляет всего 1/4 от RoBERTa.
Результаты экспериментов
Как видно из приведенного рисунка, эффект ELECTRA лучше, чем у BERT, а моделей того же размера больше, чем у BERT.
Как видно из приведенного выше рисунка, эффект ELECTRA аналогичен эффекту RoBERTa, но количество вычислений составляет только 1/4 от эффекта RoBERTa.