Это 18-й день моего участия в ноябрьском испытании обновлений. Узнайте подробности события:Вызов последнего обновления 2021 г.
Доклад Юаньфудао на EMNLP2021Aligning Cross-lingual Sentence Representations with Dual Momentum ContrastПредлагается контрастный метод обучения на основе двойных сетей Momentum. Контрастное обучение в последнее время очень популярно, особенно средиSimCESПервый предложенный метод обучения без учителя с использованием Dropout в качестве положительного образца. Эта статья Юаньфудао отличается от SimCES тем, что она в основном начинается с общей сетевой архитектуры и предлагает контролируемый метод вычисления сходства межъязыковых предложений на основе сети Momentum.
Dual Momentum Contrast
Первоначальное значение слова «импульс» — «импульс», но переводить его напрямую неудобно, поэтому здесь оно прямо выражено на английском языке. Вот краткий обзор структуры сети Momentum. Как показано на рисунке ниже, она состоит из двух энкодеров. Две сети энкодеров имеют одинаковую структуру и разные параметры.
Для имиджевых задачпредставляет картину,Представляет набор из нескольких изображений (включая изображения),вКромекроме картинок, дляВсе образцы отрицательные.заВектор после сети энкодера,представляют собой несколько векторов после прохождения через сеть кодировщика Momentum
Возвращаясь к исходной статье, учитывая набор параллельных предложений на разных языках., для каждого языкового предложения используйте модель BERT для конкретного языка, чтобы закодировать его и извлечь среднее значение всех выходных токенов в последней строке.Регуляризация как векторы предложений
Очень остроумно здесь то, что дванормализованный векторРезультатом скалярного произведения является косинусное сходство двух векторов, потому чтоРегуляризация помогает нам разделить каждый вектор на сумму квадратов знаменателя
Схема структуры сети, разработанная в статье, показана ниже, на которойУказывает на «остановить градиент», то есть без обратного распространения;иэто предложения из двух разных языков
BERT для каждого языка имеет параметрКодировщик Momentum можно понимать как копию исходного BERT, но вместо параметров копируется структура.Эти кодировщики Momentum не обновляют параметры посредством обратного распространения.Их формулы обновления параметров
Каждый язык имеет две очереди памяти для хранения самых последних пакетов, закодированных соответствующим кодировщиком Momentum.вектор. На каждом шаге оптимизации самый старый пакет векторов заменяется текущим пакетом векторов. Коэффициент импульса, обычно вы устанавливаете значение очень близкое к 1 (например, 0,999).Вообще набор очень большой(), чтобы убедиться, что для обучения модели достаточно отрицательных выборок. В качестве целевой функции автор использует InfoNCE Loss.
является гиперпараметром, а о его роли вы можете прочитать в этой моей статье:Понимание параметра τ в контрастной потере. На самом деле формула (2) являетсяКлассификация Softmax, где,Параллельный корпус , то есть положительная выборка, все отрицательные образцынаходятся в очереди на хранение
Симметрично можно определить, поэтому в конечном итоге наша цель
После обучения мы напрямую отбрасываем кодировщики Momentum и оставляем только два BERT для извлечения векторов предложений на двух языках.
Хотя метод, предложенный автором, и последующие эксперименты основаны на кросс-языковости, фактически он применим к одному и тому же языку, например, заданной паре предложений одного языка., пусть предложениепо приговоруПеревод получается, если модель хорошо обучена, то для предложенияиВекторное представление должно иметь
Умножьте обе стороны одновременнопридется
Последнее — это сходство предложений в разных языках, что наша модель явно оптимизирует.
Персональное резюме
Экспериментальный эффект очень хороший, сильно превосходит BERT-Whitening и BERT-flow, но мне лень выкладывать здесь карту результатов, т.к. я не видел в статье адреса их исходного кода