Общие функции потерь

глубокое обучение

Участвуйте в 8-м дне Ноябрьского испытания обновлений, узнайте подробности события:Вызов последнего обновления 2021 г.

В настоящее время я написал несколько, с которыми я столкнулся, и я добавлю их позже, когда столкнусь с ними. Долгосрочное обновление.

L2 loss

Среднеквадратичная потеряl(y,y')=12(yy')2l\left(y, y^{\prime}\right)=\frac{1}{2}\left(y-y^{\prime}\right)^{2}

фронт12\frac 1 2Это позволит вам отменить, когда вы ищете вывод2^2.

image.png

  • зеленыйl(y,y')=12(yy')2l\left(y, y^{\prime}\right)=\frac{1}{2}\left(y-y^{\prime}\right)^{2}

  • Розовый - четверичная функция, т.е.e(l(y,y'))e^{-\left(l\left(y, y^{\prime}\right)\right)}Следуйте нормальному распределению (распределение Гаусса)

  • Желтый — это градиент функции потерь, линейная функция, проходящая через начало координат. Во время градиентного спуска параметры обновляются в направлении отрицательного градиента. Таким образом, производная определяет, как градиентный спуск обновляет параметры. Когда прогнозируемое значение далеко от фактического значения, градиент относительно велик, и диапазон обновления параметра также велик.Когда градиент уменьшается, диапазон обновления параметра также становится все меньше и меньше.image.pngЭто нехорошо, может быть, мы не хотим кардинально обновлять параметры, когда находимся далеко от дальней точки.

L1 loss

Функция потери абсолютного значенияl(y,y')=yy'l\left(y, y^{\prime}\right)=\left|y-y^{\prime}\right|

image.png

  • фиолетовыйl(y,y')=yy'l\left(y, y^{\prime}\right)=\left|y-y^{\prime}\right|
  • синий - его четвертичная функция
  • Зеленый — это градиент, а интервал равен ±1. Обновления веса стабильны, но не могут быть получены в нуле и могут быть нестабильны в конце оптимизации.image.png

Huber's Robust loss

Потеря Хаббла

l(y,y')={yy'12 if yy'>112(yy')2 otherwise l\left(y, y^{\prime}\right)= \begin{cases}\left|y-y^{\prime}\right|-\frac{1}{2} & \text { if }\left|y-y^{\prime}\right|>1 \\ \frac{1}{2}\left(y-y^{\prime}\right)^{2} & \text { otherwise }\end{cases}

Сочетает в себе преимущества первых двух.

image.png

Когда разница между прогнозируемым значением и фактическим значением относительно велика, используется ошибка абсолютного значения за вычетом12\frac 1 2для соединения изображений. Квадрат ошибки используется, когда прогнозируемое значение близко к истинному значению.

Таким образом, веса могут обновляться равномерно, когда расстояние относительно большое, а градиент становится все меньше и меньше в конце оптимизации, и оптимизация становится более плавной.