Это 26-й день моего участия в ноябрьском испытании обновлений. Узнайте подробности события:Вызов последнего обновления 2021 г.
Лично я думаю, что недостаточно думать о значении формулы или символа с точки зрения восприятия без строгого математического доказательства, поэтому, ознакомившись с некоторыми материалами, яРоль этого гиперпараметра описана в другой статье:Параметры контрастной потерипонимание
Подводя итог методу SimCSE, я лично считаю его слишком изобретательным, потому что для людей очень субъективно судить о том, похожи ли два предложения, например: «Мне нравится Пекин» и «Мне не нравится Пекин». Я спрашиваю эти два предложения. Похожи ли слова? Модель подобна новорожденному ребенку: вы учите его тому, что эти два предложения похожи, затем он думает, что они похожи, вы учите его быть непохожим, так что позже он видит похожие предложения и думает, что они не похожи. В настоящее время производительность или точность модели мало связаны с процессом обучения, структурой модели и т. д. Именно люди или данные, отмеченные людьми, действительно влияют на результаты прогнозирования модели.
Но если вы спросите кого-нибудь, похожи ли два предложения «Мне нравится Пекин» и «Мне нравится Пекин», я не думаю, что нормальные люди скажут, что они различны. Метод SimCSE создания положительных выборок через Dropout можно рассматривать как наименьшую форму увеличения данных, потому что семантика исходного предложения и сгенерированного предложения полностью совпадают, но сгенерированное встраивание отличается. Это позволяет избежать ручной маркировки данных, или выборки в настоящее время очень объективны.
Alignment and Uniformity
Цель контрастивного обучения состоит в том, чтобы изучить высококачественное семантическое пространство представления из данных, так как же оценить качество этого пространства представления?Wang and Isola(2020)Предлагаются две метрики для измерения качества контрастного обучения: согласованность и единообразие, где рассчитывается согласованность.иСреднее расстояние:
А равномерность вычисляет равномерность общего распределения вектора:
Мы надеемся, что эти два показателя будут как можно ниже, то есть, с одной стороны, мы надеемся, что положительные образцы должны быть достаточно близки, а с другой стороны, семантические векторы должны быть максимально равномерно распределены по гиперсфере. , потому что равномерное распределение имеет самую высокую информационную энтропию, и чем больше распределение, тем более равномерно сохраняется информация. Автор случайным образом выбрал 100 000 предложений из Википедии для точной настройки BERT и протестировал его на устройстве STS-B. Результаты эксперимента представлены в следующей таблице:
Среди них None — это предложенный автором метод random Dropout, а остальные методы основаны на None.Внесите изменения, вы можете видеть, что добавление явных методов увеличения данных снизит производительность модели в разной степени. Эффект, наиболее близкий к Dropout, заключается в удалении слова, но удаление слова не приносит большого улучшения единообразия. Автор также специально Чтобы доказать это, был проведен эксперимент, как показано на следующем рисунке: