SimCSE: контрастное обучение, только отсев (2)

Это 26-й день моего участия в ноябрьском испытании обновлений. Узнайте подробности события:Вызов последнего обновления 2021 г.

Лично я думаю, что недостаточно думать о значении формулы или символа с точки зрения восприятия без строгого математического доказательства, поэтому, ознакомившись с некоторыми материалами, я $\tau$ Роль этого гиперпараметра описана в другой статье:Параметры контрастной потери $\tau$ понимание

Подводя итог методу SimCSE, я лично считаю его слишком изобретательным, потому что для людей очень субъективно судить о том, похожи ли два предложения, например: «Мне нравится Пекин» и «Мне не нравится Пекин». Я спрашиваю эти два предложения. Похожи ли слова? Модель подобна новорожденному ребенку: вы учите его тому, что эти два предложения похожи, затем он думает, что они похожи, вы учите его быть непохожим, так что позже он видит похожие предложения и думает, что они не похожи. В настоящее время производительность или точность модели мало связаны с процессом обучения, структурой модели и т. д. Именно люди или данные, отмеченные людьми, действительно влияют на результаты прогнозирования модели.

Но если вы спросите кого-нибудь, похожи ли два предложения «Мне нравится Пекин» и «Мне нравится Пекин», я не думаю, что нормальные люди скажут, что они различны. Метод SimCSE создания положительных выборок через Dropout можно рассматривать как наименьшую форму увеличения данных, потому что семантика исходного предложения и сгенерированного предложения полностью совпадают, но сгенерированное встраивание отличается. Это позволяет избежать ручной маркировки данных, или выборки в настоящее время очень объективны.

Alignment and Uniformity

Цель контрастивного обучения состоит в том, чтобы изучить высококачественное семантическое пространство представления из данных, так как же оценить качество этого пространства представления?Wang and Isola(2020)Предлагаются две метрики для измерения качества контрастного обучения: согласованность и единообразие, где рассчитывается согласованность. $x_i$ и $x_i^+$ Среднее расстояние:

\ell_{\text{align}} \triangleq \mathop{\mathbb{E}}\limits_{(x, x^+)\sim p_{\text{pos}}} \Vert f(x) - f(x^+)\Vert^2\tag{2}

А равномерность вычисляет равномерность общего распределения вектора:

\ell_{\text {uniform }} \triangleq \log \mathop{\mathbb{E}}\limits_{x, y \stackrel{i . i . d}{\sim} p_{\text{data}}} e^{-2\Vert f(x)-f(y)\Vert^{2}}\tag{3}

Мы надеемся, что эти два показателя будут как можно ниже, то есть, с одной стороны, мы надеемся, что положительные образцы должны быть достаточно близки, а с другой стороны, семантические векторы должны быть максимально равномерно распределены по гиперсфере. , потому что равномерное распределение имеет самую высокую информационную энтропию, и чем больше распределение, тем более равномерно сохраняется информация. Автор случайным образом выбрал 100 000 предложений из Википедии для точной настройки BERT и протестировал его на устройстве STS-B. Результаты эксперимента представлены в следующей таблице:

Среди них None — это предложенный автором метод random Dropout, а остальные методы основаны на None. $x_{i}^+$ Внесите изменения, вы можете видеть, что добавление явных методов увеличения данных снизит производительность модели в разной степени. Эффект, наиболее близкий к Dropout, заключается в удалении слова, но удаление слова не приносит большого улучшения единообразия. Автор также специально Чтобы доказать это, был проведен эксперимент, как показано на следующем рисунке: