[Легко понять] Интуитивное объяснение регуляризации L1 и L2 в машинном обучении

машинное обучение искусственный интеллект алгоритм регулярное выражение

Персональный сайт Red Stone:redstonewill.com

В машинном обучении, если параметров слишком много, модель становится слишком сложной, что может легко привести к переоснащению. То есть модель хорошо работает на данных обучающей выборки, но плохо работает на фактической тестовой выборке и не обладает хорошей способностью к обобщению. Чтобы избежать переобучения, одним из наиболее распространенных методов является использование регуляризации, такой как регуляризация L1 и L2. Но как возникает термин регуляризации? Какая математика стоит за этим? В чем разница между регуляризацией L1 и регуляризацией L2? Эта статья даст интуитивное объяснение.

1. Интуитивное объяснение регуляризации L2

Формула регуляризации L2 очень проста, напрямую добавляя сумму квадратов весовых параметров к исходной функции потерь:

L = E _ { in}+\lambda\sum_jw_j^2

Среди них Ein — ошибка обучающей выборки без члена регуляризации, а λ — регулируемый параметр регуляризации. Но как получается член регуляризации? Далее я подробно изложу его физический смысл.

Мы знаем, что цель регуляризации — ограничить слишком много или слишком большие параметры, чтобы избежать более сложных моделей. Например, в полиномиальной модели, если используется полином 10-го порядка, модель может быть слишком сложной и склонной к переоснащению. Итак, чтобы предотвратить переобучение, мы можем ограничить вес w его старшей части равным 0, что эквивалентно преобразованию из формы высокого порядка в форму младшего.

Для достижения этой цели наиболее интуитивным методом является ограничение количества w, но такие условия являются NP-трудными задачами и очень трудно решаются. Итак, общая практика заключается в поиске более свободных квалификаций:

\sum _jw_j^2\leq C

Вышеприведенная формула является численной верхней оценкой суммы квадратов w, то есть сумма квадратов всех w не превышает параметра C. На данный момент наша цель преобразуется в: минимизировать ошибку обучающей выборки Ein, но следовать условию, что сумма w квадратов меньше, чем C.

Ниже я использую график, чтобы проиллюстрировать, как минимизировать Ein при ограниченных условиях.

这里写图片描述

Как показано на рисунке выше, область синего эллипса — это область минимизации Ein, а красный кружок — область предельного условия w. При отсутствии ограничений обычно используется алгоритм градиентного спуска, причем в области синего эллипса он всегда будет двигаться в направлении, противоположном градиенту w, до тех пор, пока не будет найдено глобальное оптимальное значение wlin. Например, в пространстве есть точка w (фиолетовая точка на рисунке), тогда w будет двигаться в направлении -∇Ein, как показано синей стрелкой на рисунке. Однако из-за ограничений w не может покинуть красную круглую область, максимум он может располагаться только на верхнем краю круга вдоль касательного направления. Направление w показано красной стрелкой на рисунке.

Итак, вопрос в том, что существуют ограничения, где мы наконец получим оптимальное решение? То есть на основе выполнения ограниченных условий постарайтесь сделать Ein как можно меньше.

Давайте посмотрим, w движется по касательной к окружности, как показано зеленой стрелкой на рисунке выше. Направление движения перпендикулярно направлению w (направление красной стрелки). Во время движения, согласно векторному знанию, пока -∇Ein имеет внутренний угол с направлением движения и не перпендикулярен, это означает, что -∇Ein по-прежнему будет генерировать составляющую в тангенциальном направлении w, тогда w будет продолжать двигаться, чтобы найти следующее оптимальное решение. Только когда -∇Ein перпендикулярно касательному направлению w, -∇Ein не имеет компонента в касательном направлении w, тогда w перестанет обновляться и достигнет положения, ближайшего к wlin, и в то же время удовлетворит ограничениям.

-∇Ein перпендикулярно направлению касательной к w, то есть -∇Ein параллельно направлению w. Как показано на изображении выше, синяя и красная стрелки параллельны друг другу. Таким образом, согласно соотношению параллельности, получаем:

-\nabla E_{in}+\lambda w=0

Переместите предмет, получите:

\nabla E_{in}+\lambda w=0

Таким образом, мы объединяем цель оптимизации и ограничения в одну формулу. Другими словами, пока приведенная выше формула удовлетворяется в процессе оптимизации Ein, цель регуляризации может быть достигнута.

Далее, наступает момент! По идее алгоритма оптимизации: когда градиент равен 0, функция получает оптимальное значение. Известно, что ∇Ein является градиентом Ein. Глядя на приведенную выше формулу, можно ли рассматривать λw также как градиент определенного выражения?

Конечно! λw можно рассматривать как градиент 1/2λw*w:

\frac{\partial}{\partial w}(\frac12\lambda w^2)=\lambda w

Таким образом, мы строим новую функцию потерь по формуле, полученной из параллельного соотношения:

E_{aug}=E_{in}+\frac{\lambda}{2}w^2

Причина этого определения заключается в том, что, производя вывод Eaug, мы просто получаем требуемое выше отношение параллельности. Второй член в правой части приведенного выше уравнения является членом регуляризации L2.

Таким образом, мы анализируем физический смысл регуляризации L2 с графической точки зрения и объясняем, как получается функция потерь с членом регуляризации L2.

2. Интуитивное объяснение регуляризации L1

Формула регуляризации L1 также очень проста, напрямую добавляя абсолютное значение параметра веса к исходной функции потерь:

L=E_ {in}+\lambda\sum_j|w_j|

Я все еще использую диаграмму, чтобы проиллюстрировать, как минимизировать Ein при регуляризации L1.

这里写图片描述

Алгоритм оптимизации Ein не изменился, а регуляризация L1 определяет эффективную площадь w как квадрат и удовлетворяет условию |w|

3. Разреженность решений L1 и L2

После введения физической интерпретации и математического вывода регуляризации L1 и L2 давайте посмотрим на распределение их решений.

В двумерном случае левая часть приведенного выше рисунка представляет собой регуляризацию L2, а правая часть — регуляризацию L1. С другой точки зрения, выполнение условия регуляризации — это фактически решение пересечения синей и желтой областей, то есть выполнение условия ограничения и минимизация Ein одновременно. Для L2 ограничивающей областью является круг, так что вероятность того, что полученное решение w1 или w2 равно 0, очень мала и не равна нулю.

Для L1 ограниченная область представляет собой квадрат, а пересечение квадрата и синей области, скорее всего, будет вершиной, что легко понять с визуальной точки зрения и с точки зрения здравого смысла. То есть квадратная выпуклая точка будет ближе к положению wlin, соответствующему оптимальному решению Ein, и в выпуклой точке должно быть w1 или w2, чтобы быть равным 0. Таким образом, высока вероятность того, что полученное решение w1 или w2 равно нулю. Следовательно, решение регуляризации L1 является разреженным.

Продолжая до более высоких измерений, таким же образом ограниченная область L2 гладкая и равноудалена от центральной точки, а ограниченная область L1 содержит выпуклые точки и является резкой. Эти бугры ближе к оптимальному положению решения Ein, и на этих буграх многие wj равны 0.

Существует отличное объяснение того, почему L1 легче получить разреженное решение, см. ссылку ниже:

https://www.zhihu.com/question/37096933/answer/70507353

4. Параметр регуляризации λ

Регуляризация — это стратегия минимизации структурного риска, которая может эффективно уменьшить переоснащение. Функция потерь на самом деле содержит два аспекта: один — это ошибка обучающей выборки. Одним из них является срок регуляризации. Среди них параметр λ играет компромиссную роль.

Взяв в качестве примера L2, если λ мало, соответствующее значение C, указанное выше, велико. В это время круговая площадь велика, что может приблизить w к положению оптимального решения Ein. Если λ приблизительно равно 0, это эквивалентно тому, что круглая область покрывает оптимальное положение решения.В это время регуляризация не удалась, и легко вызвать переобучение. И наоборот, если λ велико, соответствующее значение C выше мало. В это время площадь круга очень мала, а w далеко от положения оптимального решения Ein. w ограничено изменением в небольшой области, и w обычно мало и близко к 0, что имеет эффект регуляризации. Однако, если λ слишком велико, легко получить неполную подгонку. Недообучение и переоснащение — два противоположных состояния.


这里写图片描述