Серия алгоритмов машинного обучения (4) — Алгоритм гребневой регрессии

машинное обучение
Серия алгоритмов машинного обучения (4) — Алгоритм гребневой регрессии

Базовые знания, необходимые для прочтения этой статьи: стандартный алгоритм линейной регрессии, немного знаний в области программирования.

Введение

   В предыдущем разделе мы изучили серию алгоритмов машинного обучения (3) — стандартный алгоритм линейной регрессии и, наконец, получили аналитическое решение w функции стоимости стандартной линейной регрессии как:

w=(XTX)1XTyw=\left(X^{T} X\right)^{-1} X^{T} y

Это относится к этой матрице, если матрица X после передачи матрицы X не является полнотержней матрицей, а вещество не обратимо, и он дополнительно сопоставляется, существует ли множество аргументов между множеством аргументов X. Давайте введем много частичную линейную задачу и один из методов для решения этой проблемы -Ридж Возвращение1(Регрессия хребта)

2. Мультиколлинеарность

   Давайте посмотрим на объяснение мультиколлинеарности в Википедии:

мультиколлинеарность2(Multicollinearity) относится к оценке неточной регрессии из-за существования точной корреляции или высокой корреляции между переменными в многомерной линейной регрессии.

   Так что же такое точные корреляции и высокие корреляции? Если имеется следующая формула (1), где w1 = 2, w2 = 3, и если имеется соотношение формулы (2), то это означает, что x1 и x2 имеют точное соотношение. Когда между х1 и х2 существует приблизительно точная корреляция, например, х1 примерно равно 2 умножить на х2, то корреляция высокая.

{y=2x1+3x2(1)x2=2x1(2)\left\{\begin{array}{l} y=2 x_{1}+3 x_{2} & (1)\\ x_{2}=2 x_{1} & (2) \end{array}\right.

   Поскольку (1) можно переписать в форме, отличной от (2), это приведет к бесконечному количеству решений для w, что сделает окончательную оценку регрессии неточной.

{y=2x1+3x2w1=2w2=3y=8x1w1=8w2=0y=4x2w1=0w2=4y=6x1+x2w1=6w2=1\Longrightarrow\left\{\begin{array}{lll} y=2 x_{1}+3 x_{2} & \Rightarrow w_{1}=2 & w_{2}=3 \\ y=8 x_{1} & \Rightarrow w_{1}=8 & w_{2}=0 \\ y=4 x_{2} & \Rightarrow w_{1}=0 & w_{2}=4 \\ y=6 x_{1}+x_{2} & \Rightarrow w_{1}=6 & w_{2}=1 \\ \ldots & & \end{array}\right.

  Согласно аналитическому решению w, обратная матричная операция может быть решена по следующей формуле, а делимое – это матрицаСопряженная матрица3, делитель является определителем матрицы. Можно видеть, что условием обратимости матрицы является то, что ее определитель не может быть равен нулю.

(XTX)1=(XTX)*XTX\left(X^TX\right)^{-1} = \frac{\left(X^TX\right)^*}{\mid X^TX \mid }

  Если существует мультиколлинеарность между независимыми переменными, определитель матрицы будет равен нулю, что приведет к необратимости матрицы. Как показано в примере X на рисунке ниже, вы можете видеть, что существует точная корреляция между x1 и x2, и умноженная матрица проходит черезэлементарное преобразование4Тогда ее определитель равен нулю, что указывает на то, что определитель умноженной матрицы также должен быть равен нулю (элементарное преобразование не меняет суждения о том, что определитель равен нулю), и матрица в этот момент необратима. При наличии высокой корреляции между независимыми переменными определитель матрицы будет приблизительно равен нулю, а отклонение полученного w будет большим, что также приведет к неточной оценке регрессии.

X=[112124136148]XT=[111112342468]XTX=[410201030602060120]Элементарная трансформация[100012000]\begin{array}{c} X=\left[\begin{array}{lll} 1 & 1 & 2 \\ 1 & 2 & 4 \\ 1 & 3 & 6 \\ 1 & 4 & 8 \end{ array}\right] \quad X^{T}=\left[\begin{array}{llll} 1 & 1 & 1 & 1 \\ 1 & 2 & 3 & 4 \\ 2 & 4 & 6 & 8 \ end{массив}\right] \\ X^{T} X=\left[\begin{array}{ccc} 4 & 10 & 20 \\ 10 & 30 & 60 \\ 20 & 60 & 120 \end{массив }\right] \stackrel{\text {Элементарное преобразование}}{\longrightarrow}\left[\begin{array}{lll} 1 & 0 & 0 \\ 0 & 1 & 2 \\ 0 & 0 & 0 \ end {массив}\справа] \end{массив}

  Проблема мультиколлинеарности, поскольку существует корреляция между независимыми переменными, одно из решений состоит в исключении коллинеарных независимых переменных, которые можно вычислить путем вычислениякоэффициент расширения дисперсии5Коэффициент инфляции дисперсии (VIF) используется для количественной оценки корреляции между независимыми переменными.Чем больше коэффициент расширения дисперсии, тем серьезнее коллинеарность независимых переменных.

Другой способ — решить проблему путем добавления к регуляризации функции стоимости штрафного члена, один из которых называется регуляризацией по Тихонову, а линейная регрессия после регуляризации функции стоимости называется ридж-регрессией.

3. Шаги алгоритма

Первый член функции стоимости регрессии   гребня согласуется со стандартной линейной регрессией, которая представляет собой сумму квадратов евклидова расстояния, за исключением того, что вектор w L2-норма6Квадрат - это штрафной член (значение L2-нормы - это сумма квадратов каждого элемента вектора W, а затем квадратный корень), где λ представляет собой коэффициент штрафного члена, а размер штрафа срок искусственно контролируется. Поскольку член регуляризации является L2-нормой, этот тип регуляризации иногда называют L2-регуляризацией.

Cost(w)=i=1N(yiwTxi)2+λw22\operatorname{Cost}(w) = \sum_{i = 1}^N \left( y_i - w^Tx_i \right)^2 + \lambda\|w\|_{2}^{2}

   — это то же самое, что и стандартная линейная регрессия, она также предназначена для нахождения размера w, когда минимизируется функция стоимости гребневой регрессии:

w=argminw(i=1N(yiwTxi)2+λw22)w=\underset{w}{\operatorname{argmin}}\left(\sum_{i=1}^{N}\left(y_{i}-w^{T} x_{i}\right)^{2}+\lambda\|w\|_{2}^{2}\right)

Функция стоимости    напрямую получает аналитическое решение w путем вывода, где X — матрица размера N x M, y — вектор-столбец N, λ принадлежит множеству действительных чисел, а I — единичная матрица размера M x M.

w=(XTX+λI)1XTyλеRw=\left(X^{T} X+\lambda I\right)^{-1} X^{T}y \quad \lambda \in \mathbb{R}
X=[x1Tx2TxNT]=[X11X12X1MX21X22X2MXN1XN2XNM]y=(y1y2yN)X=\left[\begin{array}{c} x_{1}^{T} \\ x_{2}^{T} \\ \vdots \\ x_{N}^{T} \end{array}\right]=\left[\begin{array}{cccc} X_{11} & X_{12} & \cdots & X_{1 M} \\ X_{21} & X_{22} & \cdots & X_{2 M} \\ \vdots & \vdots & \ddots & \vdots \\ X_{N 1} & X_{N 2} & \cdots & X_{N M} \end{array}\right] \quad y=\left(\begin{array}{c} y_{1} \\ y_{2} \\ \vdots \\ y_{N} \end{array}\right)

4. Доказательство принципа

Функция стоимости гребневой регрессии выпукла
   также необходимо доказать:

f(x1+x22)f(x1)+f(x2)2f\left(\frac{x_{1}+x_{2}}{2}\right) \leq \frac{f\left(x_{1}\right)+f\left(x_{2}\right)}{2}

Левая часть неравенства   :

Cost(w1+w22)=i=1N[(w1+w22)Txiyi]2+λw1+w2222\operatorname{Cost}\left(\frac{w_{1}+w_{2}}{2}\right)=\sum_{i=1}^{N}\left[\left(\frac{w_{1}+w_{2}}{2}\right)^{T} x_{i}-y_{i}\right]^{2}+\lambda\left\|\frac{w_{1}+w_{2}}{2}\right\|_{2}^{2}

Правая часть неравенства   :

Cost(w1)+Cost(w2)2=i=1N(w1Txiyi)2+i=1N(w2Txiyi)2+λw122+λw2222\frac{\operatorname{Cost}\left(w_{1}\right)+\operatorname{Cost}\left(w_{2}\right)}{2}=\frac{\sum_{i=1}^{N}\left(w_{1}^{T} x_{i}-y_{i}\right)^{2}+\sum_{i=1}^{N}\left(w_{2}^{T} x_{i}-y_{i}\right)^{2}+\lambda\left\|w_{1}\right\|_{2}^{2}+\lambda\left\|w_{2}\right\|_{2}^{2}}{2}

(1) Первая половина обеих частей неравенства согласуется со стандартной линейной регрессией, и необходимо только доказать, что оставшаяся разность больше или равна нулю
(2) Перепишите его в виде векторного точечного продукта
(3) Раскрыть скобки
(4) Объединить одни и те же элементы, транспонирование w1, умноженное на w2, и транспонирование w2, умноженное на w1, транспонируют друг друга, и поскольку результатом является действительное число, эти два элемента можно объединить.
(5) можно записать в виде квадрата вектора

Δ=λw122+λw2222λw1+w2222(1)=λ[w1Tw1+w2Tw22(w1+w22)T(w1+w22)](2)=λ(w1Tw1+w2Tw2w1Tw1+w2Tw2+w1Tw2+w2Tw12)(3)=λ2(w1Tw1+w2Tw22w1Tw2)(4)=λ2(w1w2)T(w1w2)(5)\begin{aligned} \Delta &=\lambda\left\|w_{1}\right\|_{2}^{2}+\lambda\left\|w_{2}\right\|_{2}^{2}-2 \lambda\left\|\frac{w_{1}+w_{2}}{2}\right\|_{2}^{2} & (1) \\ &=\lambda\left[w_{1}^{T} w_{1}+w_{2}^{T} w_{2}-2\left(\frac{w_{1}+w_{2}}{2}\right)^{T}\left(\frac{w_{1}+w_{2}}{2}\right)\right] & (2) \\ &=\lambda\left(w_{1}^{T} w_{1}+w_{2}^{T} w_{2}-\frac{w_{1}^{T} w_{1}+w_{2}^{T} w_{2}+w_{1}^{T} w_{2}+w_{2}^{T} w_{1}}{2}\right) & (3) \\ &=\frac{\lambda}{2}\left(w_{1}^{T} w_{1}+w_{2}^{T} w_{2}-2 w_{1}^{T} w_{2}\right) & (4) \\ &=\frac{\lambda}{2}\left(w_{1}-w_{2}\right)^{T}\left(w_{1}-w_{2}\right) & (5) \end{aligned}

Разница между правой частью неравенства и левой частью неравенства представляет собой непрерывную операцию сложения квадратного метода плюс квадрат разности двух векторов. Размер λ искусственно контролируется. Конечный результат должен быть больше больше или равно нулю в диапазоне действительных чисел, и доказательство завершено.

Аналитическое решение функции стоимости гребневой регрессии
(1) Функция стоимости гребневой регрессии
(2) Первые три члена являются результатом разложения стандартной функции стоимости линейной регрессии.Квадрат L2-нормы w может быть записан как скалярное произведение вектора w
(3) Объедините первый и четвертый пункты

Cost(w)=i=1N(yiwTxi)2+λw22(1)=wTXTXw2wTXTy+yTy+λwTw(2)=wT(XTX+λI)w2wTXTy+yTy(3)\begin{aligned} \operatorname{Cost}(w) &=\sum_{i=1}^{N}\left(y_{i}-w^{T} x_{i}\right)^{2}+\lambda\|w\|_{2}^{2} & (1)\\ &=w^{T} X^{T} X w-2 w^{T} X^{T} y+y^{T} y+\lambda w^{T} w & (2)\\ &=w^{T}\left(X^{T} X+\lambda I\right) w-2 w^{T} X^{T} y+y^{T} y & (3) \end{aligned}

(1) Функция стоимости вычисляет частную производную по w. Согласно формуле вывода вектора, только первый элемент и второй элемент связаны с W, а последний элемент является константой, а поскольку функция стоимости представляет собой выпуклая функция, когда частная производная по W равна 0 вектору, функция стоимости имеет минимальное значение.
(2) Разделите второй член на 2 после сдвига члена и одновременно умножьте обе части на обратную матрицу.Матрица в левой части уравнения и обратная матрица умножаются, чтобы стать единичной матрицей, поэтому только вектор w остается левым.

Cost(w)w=2(XTX+λI)w2XTy=0(1)w=(XTX+λI)1XTy(2)\begin{aligned} \frac{\partial \operatorname{Cost(w)}}{\partial w} &= 2(X^TX + \lambda I)w - 2X^Ty = 0 & (1) \\ w &= (X^TX + \lambda I)^{-1}X^Ty & (2) \end{aligned}

   Можно видеть, что аналитическое решение функции стоимости гребневой регрессии имеет дополнительную диагональную матрицу, которой можно управлять вручную по сравнению со стандартной линейной регрессией, В это время матрицу в скобках можно сделать обратимой, настроив различные λ.
В примере рабочих лет и средней месячной заработной платы в предыдущем разделе X представляет собой матрицу 5 x 2, y представляет собой 5-мерный вектор-столбец, когда λ равно 0,1, мы можем, наконец, вычислить w как 2-мерный вектор-столбец. , то Линейное уравнение для этого примера: y = 2139 * x - 403,9.

X=[1112131415]y=(159838986220779910510)X = \begin{bmatrix} 1 & 1\\ 1 & 2\\ 1 & 3\\ 1 & 4\\ 1 & 5 \end{bmatrix} \quad y = \begin{pmatrix} 1598\\ 3898\\ 6220\\ 7799\\ 10510 \end{pmatrix}
w=(XTX+λI)1XTy=(403.92139.0)w = \left(X^TX + \lambda I\right)^{-1}X^Ty = \begin{pmatrix} -403.9\\ 2139.0 \end{pmatrix}

   Видно, что после добавления штрафного члена аппроксимация хуже, чем результат стандартной линейной регрессии, но проблема мультиколлинеарности независимых переменных решается путем искусственного управления размером штрафного члена.

Пять, реализация кода

Реализуйте алгоритм линейной регрессии с помощью Python:

import numpy as np

def ridge(X, y, lambdas=0.1):
    """
    岭回归
    args:
        X - 训练数据集
        y - 目标标签值
        lambdas - 惩罚项系数
   return:
       w - 权重系数
   """
   return np.linalg.inv(X.T.dot(X) + lambdas * np.eye(X.shape[1])).dot(X.T).dot(y)

6. Реализация сторонней библиотеки

scikit-learn7выполнить:

from sklearn.linear_model import Ridge

# 初始化岭回归器
reg = Ridge(alpha=0.1, fit_intercept=False)
# 拟合线性模型
reg.fit(X, y)
# 权重系数
w = reg.coef_

Семь, демонстрация анимации

  На следующем рисунке показано влияние штрафного коэффициента λ на весовой коэффициент каждой независимой переменной.Горизонтальная ось — это штрафной коэффициент λ, вертикальная ось — весовой коэффициент, а каждый цвет представляет весовой коэффициент независимой переменной:

13.gif

14.png

Видно, что при большем λ (λ смещается влево) доминирует штрафной член, что приведет к стремлению к нулю весового коэффициента каждой независимой переменной, а при меньшем λ (λ смещается вправо) штрафной член term's Чем меньше влияние, тем больше колебания весового коэффициента каждой независимой переменной. В практических приложениях необходимо много раз корректировать различные значения λ, чтобы найти подходящую модель, чтобы получить наилучший конечный эффект.

Восемь, интеллект-карта

15.png

9. Ссылки

  1. En. Wikipedia.org/wiki/Клиент TI на…
  2. En. Wikipedia.org/wiki/multi C…
  3. En.wikipedia.org/wiki/AD из Кармы…
  4. En. Wikipedia.org/wiki/elemen…
  5. En. Wikipedia.org/wiki/Varian…
  6. En. Wikipedia.org/wiki/norm_(…
  7. SCI kit-learn.org/stable/Modu…

Нажмите для полной демонстрацииздесь

Примечание. Эта статья стремится быть точной и легкой для понимания, но поскольку автор также новичок и имеет ограниченный уровень, если в тексте есть ошибки или упущения, я призываю читателей критиковать и исправлять их, оставляя сообщение.
Эта статья была впервые опубликована на -карта ИИ, добро пожаловать, чтобы следовать