Регуляризация L1 и выбор встроенных функций (разреженность)

История гребневой регрессии восходит к статье, опубликованной А. Тихоновым в «Известиях АН СССР» в 1943 г. Мы знаем, что компьютер был изобретен в 1946 г. Видно, что это алгоритм с долгая история, он жив до сих пор и относится к одному из классических алгоритмов.

Гребневая регрессия — это метод регуляризации L2 для линейной регрессии. По сути регресс.

Дан набор данных D = {(x1,y1),(x2,y2),...,(xm,ym)}, где размерность xϵR^d, yϵR. Рассмотрим простейшую модель линейной регрессии с квадратом ошибки в качестве функции потерь:

Друзья, которые мало что знают о регуляризации, могут прочитать мою статью.«Регуляризация L1 и L2», но здесь у нас есть более глубокое понимание регуляризации.

Регуляризация заключается в добавлении в оптимизируемую целевую функцию параметра, который умножается на постоянный коэффициент λ (иногда также используется α), который называется регулярным членом. Легко понять, что, поскольку целевая функция всегда развивается в направлении минимизации, добавленный член будет оштрафован, чтобы уменьшить его. Для конкретного понимания, пожалуйста, обратитесь к моей «Регуляризации L1 и L2». Ниже приведено выражение целевой функции для линейной регрессии с регуляризацией.

Целевая функция для линейной регрессии с регуляризацией L1:

Целевая функция линейной регрессии с регуляризацией L2, о которой мы упоминалиРидж Возвращение:

Вышеизложенное представляет собой перцептивное понимание регуляризации и того, как она работает. Наша обычно используемая регуляризация — это регуляризация L1 и L2, также известная как регуляризация нормы L1 и регуляризация нормы L2. Обе регуляризации можно использовать для снижения риска переобучения, но регуляризация L1 имеет преимущество перед регуляризацией L2 в том, что она упрощает получение разреженных решений, т. е. имеет меньше ненулевых компонентов.

Привожу наглядный пример. Если предположить, что x имеет только два атрибута, то, согласно целевой функции линейной регрессии, есть два компонента после w. То есть w1 и w2 используйте их в качестве координатных осей для построения системы координат. как показано на рисунке

Затем мы берем точки с одинаковым значением квадратичной ошибки в этом (w1, w2) пространстве и соединяем их в линию, которая становится нашим контуром члена квадратной ошибки. Затем начертите контурные линии нормы L1 и L2, то есть линию, соединяющую точки, в которых норма L1 и норма L2 имеют одинаковое значение в пространстве (w1, w2), как показано на рисунке. Мы знаем, что пересечение контура квадрата ошибки и контура члена регуляризации равноЦелевая функция линейной регрессии с условием регуляризациирешение. Из рисунка видно, что пересечение квадрата контура ошибки и контура регуляризации L1 имеет более высокую частоту на оси координат, то есть w1 или w2 равно 0, контур квадрата ошибки эквивалентен контуру регуляризации L2. из линий, скорее всего, будет в квадранте, т. е. ни w1, ни w2 не равны 0. Можно видеть, что с помощью регуляризации по норме L1 легче получить разреженные решения, чем по норме L2.

Обратите внимание, что разреженное решение w означает, что только функции, соответствующие ненулевым компонентам w, появятся в окончательной модели среди начальных d функций, поэтому результатом является модель, которая использует только часть исходных функций. Мы можем рассматривать метод обучения L1 Zheng Zehua как метод выбора функций, удалить некоторые функции (функции равны 0), а процесс выбора функций и процесс обучения учащегося будут интегрированы и завершены одновременно.

Разница между обычными L1 и L2, как выбрать обычные L1 и L2?

L1 не является управляемым в 0. Как поступить с ними, можно предотвратить переоснащение и уменьшить сложность модели L1 — это проблема минимизации нормы L0 путем добавления 1 нормы параметров модели (то есть |xi|) после функция потерь.Это NP-трудная задача в практических приложениях и не может быть практически применена
L2 - это 2-норма параметров модели, добавленная после функции потерь (то есть сигма (xi ^ 2)). Обратите внимание, что определение нормы L2 равно sqrt (sigma (xi ^ 2)), а корень sqrt не добавляется к обычному термину Число для упрощения оптимизации L1 будет генерировать разреженные функции L2 будет генерировать больше функций, но будет близко к 0
L1 будет стремиться генерировать небольшое количество функций, в то время как все остальные функции будут равны 0, в то время как L2 будет выбирать больше функций, которые все будут близки к 0. L1 очень полезен при выборе признаков, а L2 — просто регуляризация.
L1 соответствует распределению Лапласа, L2 соответствует распределению Гаусса, L1 смещен в сторону разреженности параметров, непроизводная L1 может быть решена с помощью алгоритма аппроксимации или ADMM