SimCSE: контрастное обучение, только отсев (2)

алгоритм

Это 26-й день моего участия в ноябрьском испытании обновлений. Узнайте подробности события:Вызов последнего обновления 2021 г.

Лично я думаю, что недостаточно думать о значении формулы или символа с точки зрения восприятия без строгого математического доказательства, поэтому, ознакомившись с некоторыми материалами, ят\tauРоль этого гиперпараметра описана в другой статье:Параметры контрастной потерит\tauпонимание

Подводя итог методу SimCSE, я лично считаю его слишком изобретательным, потому что для людей очень субъективно судить о том, похожи ли два предложения, например: «Мне нравится Пекин» и «Мне не нравится Пекин». Я спрашиваю эти два предложения. Похожи ли слова? Модель подобна новорожденному ребенку: вы учите его тому, что эти два предложения похожи, затем он думает, что они похожи, вы учите его быть непохожим, так что позже он видит похожие предложения и думает, что они не похожи. В настоящее время производительность или точность модели мало связаны с процессом обучения, структурой модели и т. д. Именно люди или данные, отмеченные людьми, действительно влияют на результаты прогнозирования модели.

Но если вы спросите кого-нибудь, похожи ли два предложения «Мне нравится Пекин» и «Мне нравится Пекин», я не думаю, что нормальные люди скажут, что они различны. Метод SimCSE создания положительных выборок через Dropout можно рассматривать как наименьшую форму увеличения данных, потому что семантика исходного предложения и сгенерированного предложения полностью совпадают, но сгенерированное встраивание отличается. Это позволяет избежать ручной маркировки данных, или выборки в настоящее время очень объективны.

Alignment and Uniformity

Цель контрастивного обучения состоит в том, чтобы изучить высококачественное семантическое пространство представления из данных, так как же оценить качество этого пространства представления?Wang and Isola(2020)Предлагаются две метрики для измерения качества контрастного обучения: согласованность и единообразие, где рассчитывается согласованность.xix_iиxi+x_i^+Среднее расстояние:

alignE(x,x+)pposf(x)f(x+)2(2)\ell_{\text{align}} \triangleq \mathop{\mathbb{E}}\limits_{(x, x^+)\sim p_{\text{pos}}} \Vert f(x) - f(x^+)\Vert^2\tag{2}

А равномерность вычисляет равномерность общего распределения вектора:

uniform logEx,yi.i.dpdatae2f(x)f(y)2(3)\ell_{\text {uniform }} \triangleq \log \mathop{\mathbb{E}}\limits_{x, y \stackrel{i . i . d}{\sim} p_{\text{data}}} e^{-2\Vert f(x)-f(y)\Vert^{2}}\tag{3}

Мы надеемся, что эти два показателя будут как можно ниже, то есть, с одной стороны, мы надеемся, что положительные образцы должны быть достаточно близки, а с другой стороны, семантические векторы должны быть максимально равномерно распределены по гиперсфере. , потому что равномерное распределение имеет самую высокую информационную энтропию, и чем больше распределение, тем более равномерно сохраняется информация. Автор случайным образом выбрал 100 000 предложений из Википедии для точной настройки BERT и протестировал его на устройстве STS-B. Результаты эксперимента представлены в следующей таблице:

Среди них None — это предложенный автором метод random Dropout, а остальные методы основаны на None.xi+x_{i}^+Внесите изменения, вы можете видеть, что добавление явных методов увеличения данных снизит производительность модели в разной степени. Эффект, наиболее близкий к Dropout, заключается в удалении слова, но удаление слова не приносит большого улучшения единообразия. Автор также специально Чтобы доказать это, был проведен эксперимент, как показано на следующем рисунке: