Первый разговор о BERT

глубокое обучение

Левая половина преобразователя — кодировщик, а правая половина — декодер. Мы называем предложение, введенное кодировщиком, источником, а предложение, введенное декодером, — целью.

Кодировщик отвечает за самостоятельное внимание источника и получение представления каждого слова в предложении.Наиболее классической архитектурой кодировщика является BERT, который использует модель маскированного языка для изучения отношений между словами, а также XLNet, RoBERTa, АЛЬБЕРТ, ДистилБЕРТ и др. . Но сама по себе структура Encoder не подходит для генерации задач

Декодер показан на рисунке ниже.Существует разница между входом и выходом.Основная причина в том, что при моделировании вывода модель не может видеть слова будущего.Этот метод называется авторегрессивным.Обычно используется общая модель на основе декодера для последовательности Генерируемые, такие как GPT, CTRL и т. д. Однако сама структура Decoder только предсказывает слова на основе левого контекста и не может изучать двусторонние взаимодействия.

Когда они объединены, их можно использовать в качестве модели Seq2Seq для задач перевода. На следующем рисунке показана основная структура BART, она вроде бы ничем не отличается от Transformer, основное отличие — источник и цель.

На этапе обучения сторона кодировщика использует двунаправленную модель для кодирования поврежденного текста, а затем декодер использует авторегрессионный метод для вычисления исходного ввода; на этапе тестирования или на этапе точной настройки входные данные кодировщика и декодера оба неповрежденные тексты

БАРТ против Трансформера BART использует стандартную модель Transformer с некоторыми изменениями:

1. Как и GPT, измените функцию активации ReLU на GeLU, и инициализация параметра подчиняется нормальному распределению 2. Кодировщик и декодер базовой модели BART имеют по 6 слоев, а большая модель увеличена до 12 слоев. 3. Каждый уровень декодера BART выполняет дополнительное перекрестное внимание к последнему скрытому слою кодировщика. 4. BERT использует дополнительный уровень прямой связи перед прогнозированием слов, а BART — нет.