Контрастное обучение между языками

Это 18-й день моего участия в ноябрьском испытании обновлений. Узнайте подробности события:Вызов последнего обновления 2021 г.

Доклад Юаньфудао на EMNLP2021Aligning Cross-lingual Sentence Representations with Dual Momentum ContrastПредлагается контрастный метод обучения на основе двойных сетей Momentum. Контрастное обучение в последнее время очень популярно, особенно средиSimCESПервый предложенный метод обучения без учителя с использованием Dropout в качестве положительного образца. Эта статья Юаньфудао отличается от SimCES тем, что она в основном начинается с общей сетевой архитектуры и предлагает контролируемый метод вычисления сходства межъязыковых предложений на основе сети Momentum.

Dual Momentum Contrast

Первоначальное значение слова «импульс» — «импульс», но переводить его напрямую неудобно, поэтому здесь оно прямо выражено на английском языке. Вот краткий обзор структуры сети Momentum. Как показано на рисунке ниже, она состоит из двух энкодеров. Две сети энкодеров имеют одинаковую структуру и разные параметры.

Для имиджевых задач $x^{q}$ представляет картину, $x^{k}$ Представляет набор из нескольких изображений (включая изображения $x^q$ ),в $x^k$ Кроме $x^q$ кроме картинок, для $x^q$ Все образцы отрицательные. $q$ за $x^q$ Вектор после сети энкодера, $k$ представляют собой несколько векторов после прохождения через сеть кодировщика Momentum

Возвращаясь к исходной статье, учитывая набор параллельных предложений на разных языках. $\{x_i,y_i\}_{i=1}^n$ , для каждого языкового предложения используйте модель BERT для конкретного языка, чтобы закодировать его и извлечь среднее значение всех выходных токенов в последней строке. $L_2$ Регуляризация как векторы предложений $h_{x_i},h_{y_i}\in \mathbb{R}^{768}$

Очень остроумно здесь то, что два $L_2$ нормализованный вектор $h_{x_i},h_{x_j}$ Результатом скалярного произведения является косинусное сходство двух векторов, потому что $L_2$ Регуляризация помогает нам разделить каждый вектор на сумму квадратов знаменателя

Схема структуры сети, разработанная в статье, показана ниже, на которой $sg$ Указывает на «остановить градиент», то есть без обратного распространения; $x$ и $y$ это предложения из двух разных языков

BERT для каждого языка имеет параметр $\boldsymbol{\theta}$ Кодировщик Momentum можно понимать как копию исходного BERT, но вместо параметров копируется структура.Эти кодировщики Momentum не обновляют параметры посредством обратного распространения.Их формулы обновления параметров

\boldsymbol{\theta} = m\boldsymbol{\theta} + (1-m)\boldsymbol{\theta}_{\text{base}}\tag{1}

Каждый язык имеет две очереди памяти для хранения самых последних пакетов, закодированных соответствующим кодировщиком Momentum. $K$ вектор. На каждом шаге оптимизации самый старый пакет векторов заменяется текущим пакетом векторов. Коэффициент импульса $m\in [0,1]$ , обычно вы устанавливаете значение очень близкое к 1 (например, 0,999). $K$ Вообще набор очень большой( $> 10^5$ ), чтобы убедиться, что для обучения модели достаточно отрицательных выборок. В качестве целевой функции автор использует InfoNCE Loss.

\mathcal{L}(x,y) = -\log \frac{\exp(\mathbf{h}_x\cdot \mathbf{h}_{y}/\tau)}{\sum_{i=0}^K \exp(\mathbf{h}_x\cdot \mathbf{h}_{y_i}/\tau)}\tag{2}

$\tau$ является гиперпараметром, а о его роли вы можете прочитать в этой моей статье:Понимание параметра τ в контрастной потере. На самом деле формула (2) является $K+1$ Классификация Softmax, где, $x$ Параллельный корпус , то есть положительная выборка $y=y_0$ , все отрицательные образцы $\{y_i\}_{i=1}^K$ находятся в очереди на хранение

Симметрично можно определить $\mathcal{L}(y,x)$ , поэтому в конечном итоге наша цель

\min\ \mathcal{L}(x,y)+\mathcal{L}(y,x)\tag{3}

После обучения мы напрямую отбрасываем кодировщики Momentum и оставляем только два BERT для извлечения векторов предложений на двух языках.

Хотя метод, предложенный автором, и последующие эксперименты основаны на кросс-языковости, фактически он применим к одному и тому же языку, например, заданной паре предложений одного языка. $(x_i,x_j)$ , пусть предложение $y_j$ по приговору $x_j$ Перевод получается, если модель хорошо обучена, то для предложения $x_j$ и $y_j$ Векторное представление должно иметь

\mathbf{h}_{x_j}\approx \mathbf{h}_{y_j}

Умножьте обе стороны одновременно $\mathbf{h}_{x_i}$ придется

\mathbf{h}_{x_i}\cdot \mathbf{h}_{x_j}\approx \mathbf{h}_{x_i}\cdot \mathbf{h}_{y_j}

Последнее — это сходство предложений в разных языках, что наша модель явно оптимизирует.

Персональное резюме

Экспериментальный эффект очень хороший, сильно превосходит BERT-Whitening и BERT-flow, но мне лень выкладывать здесь карту результатов, т.к. я не видел в статье адреса их исходного кода