Серия алгоритмов машинного обучения (3) — стандартный алгоритм линейной регрессии

машинное обучение искусственный интеллект
Серия алгоритмов машинного обучения (3) — стандартный алгоритм линейной регрессии

Базовые знания, необходимые для прочтения этой статьи: вывод матриц, немного знаний в области программирования.

Введение

Ранее были введены два алгоритма бинарной классификации - алгоритм персептрона и алгоритм кармана.Эти алгоритмы решают задачу классификации, но на самом деле речь идет скорее о прогнозировании цены жилья в определенном районе и того, сколько банк должен дать определенному Проблема получения в конце конкретного числового результата, такого как количество кредитных карт, сколько акций нужно купить и продать сегодня и т. Д., Этот тип проблемы единообразно называется проблемой регрессии в машинном обучении.
  Регрессионный анализ — это метод изучения взаимосвязи между несколькими группами переменных в статистике, а также широко используемый в машинном обучении.Одна из моделей алгоритма представлена ​​ниже —Линейная регрессия1(Линейная регрессия)

2. Введение в модель

  Прежде чем представить модель, давайте рассмотрим пример. Предположим, что есть место, где подсчитываются доходы людей с разным стажем работы (симулированные данные), как показано в следующей таблице:

Годы работы среднемесячная заработная плата
1 год 1598 юаней
2 года 3898 юаней
3 года 6220 юаней
4 года 7799 юаней
5 лет 10510 юаней

   Из данных в таблице выше можно нарисовать картину местного среднемесячного дохода раз в два года:

0.png

Из приведенного выше рисунка мы можем интуитивно увидеть, что эти точки кажутся расположенными на прямой или около нее.Согласно нашей интуиции, мы можем судить о том, что местный среднемесячный доход и количество рабочих лет имеют определенную линейную зависимость.Нам нужно только найти прямую, то мы можем предсказать среднемесячный доход местного населения с 6-летней зарплатой. Процесс нахождения такой прямой линии называется линейным регрессионным анализом.

1.png

  Определение: Имея несколько случайных точек выборки {x1, y1}, {x2, y2}, ..., найдите гиперплоскость (прямую линию для одномерных переменных, плоскость для двух переменных), соответствующую этим точкам выборки. Линейное уравнение выглядит следующим образом:
(1) Общий вид уравнения гиперплоской функции
(2) Как и в случае с алгоритмом персептрона, рассмотрим b как нулевое значение w и сократим уравнение гиперплоской функции до формы скалярного произведения двух векторов w и x.

y=b+w1x1+w2x2++wMxM=wTx\begin{array}{rcc} y & =b+w_{1} x_{1}+w_{2} x_{2}+\cdots+w_{M} x_{M} \\ & =\quad w^{T} x \end{array}

2.png 3.png

Одна переменная — это прямая линия, две переменные — это плоскость, а несколько переменных — это гиперплоскость.

3. Шаги алгоритма

   Итак, как найти лучшую гиперплоскость из множества точек выборки? В приведенном выше примере рабочих лет и средней месячной заработной платы кажется, что можно провести много прямых линий, соответствующих этим точкам.

5.png

  По аналогии с двумя приведенными выше прямыми, какая прямая лучше подходит интуитивно? Из пунктира на рисунке должно быть видно, что расстояние между каждой точкой отсчета и линией В дальше, чем линия А, а линия А заведомо лучше, чем линия В, а значит, расстояние между точкой отсчета и линия может быть определена, чтобы судить, хорошо ли подходит или плохо.
Если предположить, что имеется N точек выборки {x, y}, а независимые переменные каждой точки выборки имеют M {x1, x2, ... }, то сумму расстояний между всеми точками выборки и этой гиперплоскостью можно определить как подгонка этой функции стоимости для точек выборки, где w — M-мерный вектор-столбец, x — также M-мерный вектор-столбец, а y — действительное число:

Cost(w)=i=1NwTxiyi\operatorname{Cost}(w)=\sum_{i=1}^{N}\left|w^{T} x_{i}-y_{i}\right|

   Так как в функции есть абсолютное значение, перепишем ее в виде квадрата, что в геометрии называетсяЕвклидово расстояние2.

Cost(w)=i=1N(wTxiyi)2\operatorname{Cost}(w)=\sum_{i=1}^{N}\left(w^{T} x_{i}-y_{i}\right)^{2}

   Интуитивно нам нужно только минимизировать значение функции стоимости, то есть сумма евклидовых расстояний от всех точек выборки до гиперплоскости является наименьшей, а соответствующий w является весовым коэффициентом этой гиперплоскости.

w=argminw(i=1N(wTxiyi)2)w=\underset{w}{\operatorname{argmin}}\left(\sum_{i=1}^{N}\left(w^{T} x_{i}-y_{i}\right)^{2}\right)
argmin3Функция указывает, что когда значение уравнения функции в скобках наименьшее, возвращается переменная в этот момент.

  Метод решения, основанный на минимизации вышеуказанной функции, называется методом наименьших квадратов, так как функция стоимости представляет собойвыпуклая функция4, по свойствам выпуклой функции можно узнать, что ее локальный минимум является глобальным минимумом, и можно непосредственно получить наилучшее аналитическое решение w, где X — матрица N x M, а y — N-мерная вектор-столбец:

w=(XTX)1XTyw=\left(X^{T} X\right)^{-1} X^{T} y
X=[x1Tx2TxNT]=[X11X12X1MX21X22X2MXN1XN2XNM]y=(y1y2yN)X=\left[\begin{array}{c} x_{1}^{T} \\ x_{2}^{T} \\ \vdots \\ x_{N}^{T} \end{array}\right]=\left[\begin{array}{cccc} X_{11} & X_{12} & \cdots & X_{1 M} \\ X_{21} & X_{22} & \cdots & X_{2 M} \\ \vdots & \vdots & \ddots & \vdots \\ X_{N 1} & X_{N 2} & \cdots & X_{N M} \end{array}\right] \quad y=\left(\begin{array}{c} y_{1} \\ y_{2} \\ \vdots \\ y_{N} \end{array}\right)

4. Доказательство принципа

Функция стоимости линейной регрессии выпукла
Выпуклая функция - это реальная функция f, определенная на выпуклом подмножестве векторного пространства C, и C для любого выпуклого подмножества двух векторов x1, x2 удовлетворяет следующей формуле:

f(x1+x22)f(x1)+f(x2)2f\left(\frac{x_{1}+x_{2}}{2}\right) \leq \frac{f\left(x_{1}\right)+f\left(x_{2}\right)}{2}

Левая часть неравенства   :

Cost(w1+w22)=i=1N[(w1+w22)Txiyi]2\operatorname{Cost}\left(\frac{w_{1}+w_{2}}{2}\right)=\sum_{i=1}^{N}\left[\left(\frac{w_{1}+w_{2}}{2}\right)^{T} x_{i}-y_{i}\right]^{2}

Правая часть неравенства   :

Cost(w1)+Cost(w2)2=i=1N(w1Txiyi)2+i=1N(w2Txiyi)22\frac{\operatorname{Cost}\left(w_{1}\right)+\operatorname{Cost}\left(w_{2}\right)}{2}=\frac{\sum_{i=1}^{N}\left(w_{1}^{T} x_{i}-y_{i}\right)^{2}+\sum_{i=1}^{N}\left(w_{2}^{T} x_{i}-y_{i}\right)^{2}}{2}

(1) Умножить левую часть неравенства на 2
(2) Переместите 2 в операцию непрерывной добавления и выписывайте три предмета в скобках
(3) Разложите квадрат на 6 членов

2Cost(w1+w22)=2i=1N[(w1+w22)Txiyi]2(1)=i=1N2(w1Txi2+w2Txi2yi)2(2)=i=1N(w1TxixiTw12+w2TxixiTw22+w1Txiw2Txi2w1Txiyi2w2Txiyi+2yi2)(3)\begin{aligned} 2 \operatorname{Cost}\left(\frac{w_{1}+w_{2}}{2}\right) &=2 \sum_{i=1}^{N}\left[\left(\frac{w_{1}+w_{2}}{2}\right)^{T} x_{i}-y_{i}\right]^{2} & (1) \\ &=\sum_{i=1}^{N} 2\left(\frac{w_{1}^{T} x_{i}}{2}+\frac{w_{2}^{T} x_{i}}{2}-y_{i}\right)^{2} & (2) \\ &=\sum_{i=1}^{N}\left(\frac{w_{1}^{T} x_{i} x_{i}^{T} w_{1}}{2}+\frac{w_{2}^{T} x_{i} x_{i}^{T} w_{2}}{2}+w_{1}^{T} x_{i} w_{2}^{T} x_{i}-2 w_{1}^{T} x_{i} y_{i}-2 w_{2}^{T} x_{i} y_{i}+2 y_{i}^{2}\right) & (3) \end{aligned}

(1) Правая часть неравенства также умножается на 2
(2) Сумма двух последовательных операций сложения записывается как последовательная операция сложения двух сумм
(3) Раскройте квадрат члена в скобках
(4) Переместите элемент, чтобы он соответствовал указанному выше.

Cost(w1)+Cost(w2)=i=1N(w1Txiyi)2+i=1N(w2Txiyi)2(1)=i=1N[(w1Txiyi)2+(w2Txiyi)2](2)=i=1N(w1TxixiTw12w1Txiyi2+yi2+w2TxixiTw22w2Txiyi+yi2)(3)=i=1N(w1TxixiTw1+w2TxixiTw22w1Txiyi2w2Txiyi+2yi2)(4)\begin{aligned} \operatorname{Cost}\left(w_{1}\right)+\operatorname{Cost}\left(w_{2}\right) &=\sum_{i=1}^{N}\left(w_{1}^{T} x_{i}-y_{i}\right)^{2}+\sum_{i=1}^{N}\left(w_{2}^{T} x_{i}-y_{i}\right)^{2} & (1) \\ &=\sum_{i=1}^{N}\left[\left(w_{1}^{T} x_{i}-y_{i}\right)^{2}+\left(w_{2}^{T} x_{i}-y_{i}\right)^{2}\right] & (2)\\ &=\sum_{i=1}^{N}\left(w_{1}^{T} x_{i} x_{i}^{T} w_{1}-2 w_{1}^{T} x_{i} y_{i}^{2}+y_{i}^{2}+w_{2}^{T} x_{i} x_{i}^{T} w_{2}-2 w_{2}^{T} x_{i} y_{i}+y_{i}^{2}\right) & (3)\\ &=\sum_{i=1}^{N}\left(w_{1}^{T} x_{i} x_{i}^{T} w_{1}+w_{2}^{T} x_{i} x_{i}^{T} w_{2}-2 w_{1}^{T} x_{i} y_{i}-2 w_{2}^{T} x_{i} y_{i}+2 y_{i}^{2}\right) & (4) \end{aligned}

   Вычтите член в правой части неравенства из члена в левой части неравенства и запишите разницу как Δ. Теперь нам нужно только доказать, что разница между этими двумя членами больше или равна нулю.
(1) Обратите внимание на результаты двух условий, последние три условия одинаковы, и они упрощаются после вычитания.
(2) Вывести половину
(3) Если вы обратите внимание на скобки, вы обнаружите, что это плоский метод.

Δ=i=1N(w1TxixiTw12+w2TxixiTw22w1Txiw2Txi)(1)=12i=1N(w1TxixiTw1+w2TxixiTw22w1Txiw2Txi)(2)=12i=1N(w1Txiw2Txi)2(3)\begin{aligned} \Delta &=\sum_{i=1}^{N}\left(\frac{w_{1}^{T} x_{i} x_{i}^{T} w_{1}}{2}+\frac{w_{2}^{T} x_{i} x_{i}^{T} w_{2}}{2}-w_{1}^{T} x_{i} w_{2}^{T} x_{i}\right) & (1) \\ &=\frac{1}{2} \sum_{i=1}^{N}\left(w_{1}^{T} x_{i} x_{i}^{T} w_{1}+w_{2}^{T} x_{i} x_{i}^{T} w_{2}-2 w_{1}^{T} x_{i} w_{2}^{T} x_{i}\right) & (2) \\ &=\frac{1}{2} \sum_{i=1}^{N}\left(w_{1}^{T} x_{i}-w_{2}^{T} x_{i}\right)^{2} & (3) \end{aligned}

   Разница между правой частью неравенства и левой частью неравенства является непрерывной операцией сложения метода квадратов.В диапазоне действительных чисел окончательный результат должен быть больше или равен нулю, и доказательство завершено.

Аналитическое решение функции стоимости линейной регрессии
(1) Функция стоимости линейной регрессии
(2) Его можно переписать как скалярное произведение двух N-мерных векторов
(3) Используя A для представления первого N-мерного вектора-строки, функция стоимости фактически является транспонированием вектора A, умноженного на вектор A

Cost(w)=i=1N(wTxiyi)2(1)=(wTx1y1wTxNyN)(wTx1y1wTxNyN)(2)=AAT(3)\begin{aligned} \operatorname{Cost}(w) &=\sum_{i=1}^{N}\left(w^{T} x_{i}-y_{i}\right)^{2} & (1)\\ &=\left(w^{T} x_{1}-y_{1} \ldots w^{T} x_{N}-y_{N}\right)\left(\begin{array}{c} w^{T} x_{1}-y_{1} \\ \cdots \\ w^{T} x_{N}-y_{N} \end{array}\right) & (2)\\ &=\quad A A^{T} & (3) \end{aligned}

(1) Определение вектора A
(2) Вектор A можно записать как вычитание двух N-мерных векторов-строк
(3) Первый вектор-строка может транспонировать w и записать его как M-мерный вектор, умноженный на матрицу M x N (обратите внимание, что x изначально является M-мерным вектором-столбцом, а N векторов-столбцов x образуют M x матрица N)
(4) Задайте матрицу N x M X , где N строк соответствуют N выборкам, M столбцов соответствуют M переменным, задайте N-мерный вектор-столбец y , а N измерений соответствуют N выборкам. Можно видеть, что комбинация первой группы векторов-столбцов x является транспонированной матрицей X, а комбинация последней группы действительных чисел y является транспонированной вектор-столбца y.

A=(wTx1y1wTxNyN)(1)=(wTx1wTxN)(y1yN)(2)=wT(x1xN)(y1yN)(3)=wTXTyT(4)\begin{aligned} A &=\left(w^{T} x_{1}-y_{1} \ldots w^{T} x_{N}-y_{N}\right) & (1)\\ &=\left(w^{T} x_{1} \ldots w^{T} x_{N}\right)-\left(y_{1} \ldots y_{N}\right) & (2) \\ &=w^{T}\left(x_{1} \ldots x_{N}\right)-\left(y_{1} \ldots y_{N}\right) & (3) \\ &=\quad w^{T} X^{T}-y^{T} & (4) \end{aligned}

(1) Функция стоимости записывается в виде скалярного произведения двух векторов
(2) Внесите упрощенную формулу A выше в функцию стоимости.
(3) СогласноТранспонированный характер5, вы можете переписать следующее транспонирование
(4) Разверните умножение
(5) Обратите внимание на два средних задания и обнаружите, что они транспонированы друг в друга, и поскольку окончательные результаты этих двух заданий являются действительными числами, результаты этих двух заданий должны быть равны, поэтому эти два задания можно объединить.

Cost(w)=AAT(1)=(wTXTyT)(wTXTyT)T(2)=(wTXTyT)(Xwy)(3)=wTXTXwwTXTyyTXw+yTy(4)=wTXTXw2wTXTy+yTy(5)\begin{aligned} \operatorname{Cost}(w) &=A A^{T} & (1)\\ &= \left(w^{T} X^{T}-y^{T}\right)\left(w^{T} X^{T}-y^{T}\right)^{T} & (2) \\ &= \left(w^{T} X^{T}-y^{T}\right)(X w-y) & (3) \\ &= w^{T} X^{T} X w-w^{T} X^{T} y-y^{T} X w+y^{T} y & (4) \\ &= w^{T} X^{T} X w-2 w^{T} X^{T} y+y^{T} y & (5) \end{aligned}

(1) Функция стоимости вычисляет частную производную по w. Согласно формуле вывода вектора, только первый член и второй член связаны с w, а последний член является константой, и поскольку функция стоимости представляет собой выпуклая функция, когда частная производная по W равна 0 вектору, функция стоимости имеет минимальное значение.
(2) Разделите второй член на 2 после сдвига члена и одновременно умножьте обе части на обратную матрицу.Матрица в левой части уравнения и обратная матрица умножаются, чтобы стать единичной матрицей, поэтому только вектор w остается левым.

Cost(w)w=2XTXw2XTy=0(1)w=(XTX)1XTy(2)\begin{aligned} \frac{\partial \operatorname{Cost}(w)}{\partial w} &=2 X^{T} X w-2 X^{T} y=0 & (1)\\ w &=\left(X^{T} X\right)^{-1} X^{T} y & (2) \end{aligned}

   Таким образом, аналитическое решение w находится.Вы можете видеть, что необходимо найти обратную матрицу матрицы.Когда матрица N x N в скобках нематрица полного ранга6Нет обратной матрицы, когда нет обратной матрицы, и суть ее в том, что естьмультиколлинеарность7(Мультиколлинеарность), в следующем разделе будет представлена ​​мультиколлинеарность в линейной регрессии и способы решения этой проблемы мультиколлинеарности. Часть перед вектором y в следующем уравнении называется псевдообратной матрицей X и может быть получена с помощьюсингулярное разложение8(SVD) Находит псевдообратную матрицу.

w=(XTX)1XTX+yw=\underbrace{\left(X^{T} X\right)^{-1} X^{T}}_{X^{+}} y

   Вы можете видеть, что X представляет собой матрицу N x M, а y представляет собой N-мерный вектор-столбец. В приведенном выше примере рабочих лет и средней месячной заработной платы X представляет собой матрицу 5 x 2, y представляет собой 5-мерный вектор-столбец, и, наконец, w можно рассчитать как 2-мерный вектор-столбец, тогда линейное уравнение этого примера у = 2172,5 * х - 512,5.

X=[1112131415]y=(159838986220779910510)X = \begin{bmatrix} 1 & 1\\ 1 & 2\\ 1 & 3\\ 1 & 4\\ 1 & 5 \end{bmatrix} \quad y = \begin{pmatrix} 1598\\ 3898\\ 6220\\ 7799\\ 10510 \end{pmatrix}
w=(XTX)1XTy=(512.52172.5)w=\left(X^{T} X\right)^{-1} X^{T} y=\left(\begin{array}{c} -512.5 \\ 2172.5 \end{array}\right)

Геометрическая интерпретация аналитических решений функции стоимости линейной регрессии
Матричная форма    линейного уравнения, где y — N-мерный вектор-столбец, X — матрица N x M, а w — M-мерный вектор-столбец:

y=Xwy = Xw

Давайте сначала посмотрим на рисунок ниже.Серая гиперплоскость S состоит из M черных N-мерных векторов-столбцов X, а красный N-мерный вектор-столбец y представляет собой значение y фактической точки выборки.В примере рабочих лет и среднемесячная заработная плата, х1 = (1 , 1, 1, 1, 1), х2 = (1, 2, 3, 4, 5), у = (1598, 3898, 6220, 7799, 10510). Теперь мы хотим найти y' после линейной комбинации вектора x, чтобы y - y' было наименьшим, что является фиолетовым вектором на рисунке. Как видно из рисунка, когда y — y' — вектор нормали к гиперплоскости, он является кратчайшим, что также эквивалентно тому, что y — y' перпендикулярно каждому вектору x.

27.png

геометрическая интерпретация

(1) y - y' перпендикулярно каждому вектору x, обратите внимание, что результатом является M-мерный нулевой вектор
(2) Замените линейное уравнение y'
(3) Раскрыть скобки
(4) После сдвига члена можно решить w

XT(yy')=0(1)XT(yXw)=0(2)XTyXTXw=0(3)w=(XTX)1XTy(4)\begin{array}{l} X^{T}\left(y-y^{\prime}\right)=0 & (1) \\ X^{T}(y-X w)=0 & (2)\\ X^{T} y-X^{T} X w=0 & (3) \\ w=\left(X^{T} X\right)^{-1} X^{T} y & (4) \end{array}

   Видно, что геометрическая интерпретация согласуется с результатами, полученными путем вывода

Пять, реализация кода

Реализуйте алгоритм линейной регрессии с помощью Python:

def linear(X, y):
    """
    线性回归
    args:
        X - 训练数据集
        y - 目标标签值
    return:
        w - 权重系数
    """
   # pinv 函数直接求矩阵的伪逆矩阵
   return np.linalg.pinv(X).dot(y)

6. Реализация сторонней библиотеки

scikit-learn9выполнить:

from sklearn.linear_model import LinearRegression

# 初始化线性回归器
lin = LinearRegression(fit_intercept=False)
# 拟合线性模型
lin.fit(X, y)
# 权重系数
w = lin.coef_

Семь, демонстрация анимации

  Когда линейное уравнение принимает разные весовые коэффициенты, соответствующая функция стоимости изменяется, мы можем видеть, что функция стоимости сначала уменьшается до минимального значения, а затем постепенно увеличивается.

29.gif

Восемь, интеллект-карта

30.png

9. Ссылки

  1. En. Wikipedia.org/wiki/linear…
  2. En. Wikipedia.org/wiki/Euclid…
  3. En. Wikipedia.org/wiki/arg_horse…
  4. En. Wikipedia.org/wiki/convex…
  5. En. Wikipedia.org/wiki/trans П…
  6. En. Wikipedia.org/wiki/rank_(…
  7. En. Wikipedia.org/wiki/multi C…
  8. En. Wikipedia.org/wiki/sin призывает…
  9. SCI kit-learn.org/stable/Modu…

Нажмите для полной демонстрацииздесь

Примечание. Эта статья стремится быть точной и легкой для понимания, но поскольку автор также новичок и имеет ограниченный уровень, если в тексте есть ошибки или упущения, я призываю читателей критиковать и исправлять их, оставляя сообщение.
Эта статья была впервые опубликована на -карта ИИ, добро пожаловать, чтобы следовать