Базовые знания, необходимые для прочтения этой статьи: вывод матриц, немного знаний в области программирования.

Введение

Ранее были введены два алгоритма бинарной классификации - алгоритм персептрона и алгоритм кармана.Эти алгоритмы решают задачу классификации, но на самом деле речь идет скорее о прогнозировании цены жилья в определенном районе и того, сколько банк должен дать определенному Проблема получения в конце конкретного числового результата, такого как количество кредитных карт, сколько акций нужно купить и продать сегодня и т. Д., Этот тип проблемы единообразно называется проблемой регрессии в машинном обучении.
Регрессионный анализ — это метод изучения взаимосвязи между несколькими группами переменных в статистике, а также широко используемый в машинном обучении.Одна из моделей алгоритма представлена ниже —Линейная регрессия¹(Линейная регрессия)

2. Введение в модель

Прежде чем представить модель, давайте рассмотрим пример. Предположим, что есть место, где подсчитываются доходы людей с разным стажем работы (симулированные данные), как показано в следующей таблице:

Годы работы	среднемесячная заработная плата
1 год	1598 юаней
2 года	3898 юаней
3 года	6220 юаней
4 года	7799 юаней
5 лет	10510 юаней

Из данных в таблице выше можно нарисовать картину местного среднемесячного дохода раз в два года:

Из приведенного выше рисунка мы можем интуитивно увидеть, что эти точки кажутся расположенными на прямой или около нее.Согласно нашей интуиции, мы можем судить о том, что местный среднемесячный доход и количество рабочих лет имеют определенную линейную зависимость.Нам нужно только найти прямую, то мы можем предсказать среднемесячный доход местного населения с 6-летней зарплатой. Процесс нахождения такой прямой линии называется линейным регрессионным анализом.

Определение: Имея несколько случайных точек выборки {x1, y1}, {x2, y2}, ..., найдите гиперплоскость (прямую линию для одномерных переменных, плоскость для двух переменных), соответствующую этим точкам выборки. Линейное уравнение выглядит следующим образом:
(1) Общий вид уравнения гиперплоской функции
(2) Как и в случае с алгоритмом персептрона, рассмотрим b как нулевое значение w и сократим уравнение гиперплоской функции до формы скалярного произведения двух векторов w и x.

\begin{array}{rcc} y & =b+w_{1} x_{1}+w_{2} x_{2}+\cdots+w_{M} x_{M} \\ & =\quad w^{T} x \end{array}

Одна переменная — это прямая линия, две переменные — это плоскость, а несколько переменных — это гиперплоскость.

3. Шаги алгоритма

Итак, как найти лучшую гиперплоскость из множества точек выборки? В приведенном выше примере рабочих лет и средней месячной заработной платы кажется, что можно провести много прямых линий, соответствующих этим точкам.

По аналогии с двумя приведенными выше прямыми, какая прямая лучше подходит интуитивно? Из пунктира на рисунке должно быть видно, что расстояние между каждой точкой отсчета и линией В дальше, чем линия А, а линия А заведомо лучше, чем линия В, а значит, расстояние между точкой отсчета и линия может быть определена, чтобы судить, хорошо ли подходит или плохо.
Если предположить, что имеется N точек выборки {x, y}, а независимые переменные каждой точки выборки имеют M {x1, x2, ... }, то сумму расстояний между всеми точками выборки и этой гиперплоскостью можно определить как подгонка этой функции стоимости для точек выборки, где w — M-мерный вектор-столбец, x — также M-мерный вектор-столбец, а y — действительное число:

\operatorname{Cost}(w)=\sum_{i=1}^{N}\left|w^{T} x_{i}-y_{i}\right|

Так как в функции есть абсолютное значение, перепишем ее в виде квадрата, что в геометрии называетсяЕвклидово расстояние².

\operatorname{Cost}(w)=\sum_{i=1}^{N}\left(w^{T} x_{i}-y_{i}\right)^{2}

Интуитивно нам нужно только минимизировать значение функции стоимости, то есть сумма евклидовых расстояний от всех точек выборки до гиперплоскости является наименьшей, а соответствующий w является весовым коэффициентом этой гиперплоскости.

w=\underset{w}{\operatorname{argmin}}\left(\sum_{i=1}^{N}\left(w^{T} x_{i}-y_{i}\right)^{2}\right)

argmin³Функция указывает, что когда значение уравнения функции в скобках наименьшее, возвращается переменная в этот момент.

Метод решения, основанный на минимизации вышеуказанной функции, называется методом наименьших квадратов, так как функция стоимости представляет собойвыпуклая функция⁴, по свойствам выпуклой функции можно узнать, что ее локальный минимум является глобальным минимумом, и можно непосредственно получить наилучшее аналитическое решение w, где X — матрица N x M, а y — N-мерная вектор-столбец:

w=\left(X^{T} X\right)^{-1} X^{T} y

X=\left[\begin{array}{c} x_{1}^{T} \\ x_{2}^{T} \\ \vdots \\ x_{N}^{T} \end{array}\right]=\left[\begin{array}{cccc} X_{11} & X_{12} & \cdots & X_{1 M} \\ X_{21} & X_{22} & \cdots & X_{2 M} \\ \vdots & \vdots & \ddots & \vdots \\ X_{N 1} & X_{N 2} & \cdots & X_{N M} \end{array}\right] \quad y=\left(\begin{array}{c} y_{1} \\ y_{2} \\ \vdots \\ y_{N} \end{array}\right)

4. Доказательство принципа

Функция стоимости линейной регрессии выпукла
Выпуклая функция - это реальная функция f, определенная на выпуклом подмножестве векторного пространства C, и C для любого выпуклого подмножества двух векторов x1, x2 удовлетворяет следующей формуле:

f\left(\frac{x_{1}+x_{2}}{2}\right) \leq \frac{f\left(x_{1}\right)+f\left(x_{2}\right)}{2}

Левая часть неравенства :

\operatorname{Cost}\left(\frac{w_{1}+w_{2}}{2}\right)=\sum_{i=1}^{N}\left[\left(\frac{w_{1}+w_{2}}{2}\right)^{T} x_{i}-y_{i}\right]^{2}

Правая часть неравенства :

\frac{\operatorname{Cost}\left(w_{1}\right)+\operatorname{Cost}\left(w_{2}\right)}{2}=\frac{\sum_{i=1}^{N}\left(w_{1}^{T} x_{i}-y_{i}\right)^{2}+\sum_{i=1}^{N}\left(w_{2}^{T} x_{i}-y_{i}\right)^{2}}{2}

(1) Умножить левую часть неравенства на 2
(2) Переместите 2 в операцию непрерывной добавления и выписывайте три предмета в скобках
(3) Разложите квадрат на 6 членов

\begin{aligned} 2 \operatorname{Cost}\left(\frac{w_{1}+w_{2}}{2}\right) &=2 \sum_{i=1}^{N}\left[\left(\frac{w_{1}+w_{2}}{2}\right)^{T} x_{i}-y_{i}\right]^{2} & (1) \\ &=\sum_{i=1}^{N} 2\left(\frac{w_{1}^{T} x_{i}}{2}+\frac{w_{2}^{T} x_{i}}{2}-y_{i}\right)^{2} & (2) \\ &=\sum_{i=1}^{N}\left(\frac{w_{1}^{T} x_{i} x_{i}^{T} w_{1}}{2}+\frac{w_{2}^{T} x_{i} x_{i}^{T} w_{2}}{2}+w_{1}^{T} x_{i} w_{2}^{T} x_{i}-2 w_{1}^{T} x_{i} y_{i}-2 w_{2}^{T} x_{i} y_{i}+2 y_{i}^{2}\right) & (3) \end{aligned}

(1) Правая часть неравенства также умножается на 2
(2) Сумма двух последовательных операций сложения записывается как последовательная операция сложения двух сумм
(3) Раскройте квадрат члена в скобках
(4) Переместите элемент, чтобы он соответствовал указанному выше.

\begin{aligned} \operatorname{Cost}\left(w_{1}\right)+\operatorname{Cost}\left(w_{2}\right) &=\sum_{i=1}^{N}\left(w_{1}^{T} x_{i}-y_{i}\right)^{2}+\sum_{i=1}^{N}\left(w_{2}^{T} x_{i}-y_{i}\right)^{2} & (1) \\ &=\sum_{i=1}^{N}\left[\left(w_{1}^{T} x_{i}-y_{i}\right)^{2}+\left(w_{2}^{T} x_{i}-y_{i}\right)^{2}\right] & (2)\\ &=\sum_{i=1}^{N}\left(w_{1}^{T} x_{i} x_{i}^{T} w_{1}-2 w_{1}^{T} x_{i} y_{i}^{2}+y_{i}^{2}+w_{2}^{T} x_{i} x_{i}^{T} w_{2}-2 w_{2}^{T} x_{i} y_{i}+y_{i}^{2}\right) & (3)\\ &=\sum_{i=1}^{N}\left(w_{1}^{T} x_{i} x_{i}^{T} w_{1}+w_{2}^{T} x_{i} x_{i}^{T} w_{2}-2 w_{1}^{T} x_{i} y_{i}-2 w_{2}^{T} x_{i} y_{i}+2 y_{i}^{2}\right) & (4) \end{aligned}

Вычтите член в правой части неравенства из члена в левой части неравенства и запишите разницу как Δ. Теперь нам нужно только доказать, что разница между этими двумя членами больше или равна нулю.
(1) Обратите внимание на результаты двух условий, последние три условия одинаковы, и они упрощаются после вычитания.
(2) Вывести половину
(3) Если вы обратите внимание на скобки, вы обнаружите, что это плоский метод.

\begin{aligned} \Delta &=\sum_{i=1}^{N}\left(\frac{w_{1}^{T} x_{i} x_{i}^{T} w_{1}}{2}+\frac{w_{2}^{T} x_{i} x_{i}^{T} w_{2}}{2}-w_{1}^{T} x_{i} w_{2}^{T} x_{i}\right) & (1) \\ &=\frac{1}{2} \sum_{i=1}^{N}\left(w_{1}^{T} x_{i} x_{i}^{T} w_{1}+w_{2}^{T} x_{i} x_{i}^{T} w_{2}-2 w_{1}^{T} x_{i} w_{2}^{T} x_{i}\right) & (2) \\ &=\frac{1}{2} \sum_{i=1}^{N}\left(w_{1}^{T} x_{i}-w_{2}^{T} x_{i}\right)^{2} & (3) \end{aligned}

Разница между правой частью неравенства и левой частью неравенства является непрерывной операцией сложения метода квадратов.В диапазоне действительных чисел окончательный результат должен быть больше или равен нулю, и доказательство завершено.

Аналитическое решение функции стоимости линейной регрессии
(1) Функция стоимости линейной регрессии
(2) Его можно переписать как скалярное произведение двух N-мерных векторов
(3) Используя A для представления первого N-мерного вектора-строки, функция стоимости фактически является транспонированием вектора A, умноженного на вектор A

\begin{aligned} \operatorname{Cost}(w) &=\sum_{i=1}^{N}\left(w^{T} x_{i}-y_{i}\right)^{2} & (1)\\ &=\left(w^{T} x_{1}-y_{1} \ldots w^{T} x_{N}-y_{N}\right)\left(\begin{array}{c} w^{T} x_{1}-y_{1} \\ \cdots \\ w^{T} x_{N}-y_{N} \end{array}\right) & (2)\\ &=\quad A A^{T} & (3) \end{aligned}

(1) Определение вектора A
(2) Вектор A можно записать как вычитание двух N-мерных векторов-строк
(3) Первый вектор-строка может транспонировать w и записать его как M-мерный вектор, умноженный на матрицу M x N (обратите внимание, что x изначально является M-мерным вектором-столбцом, а N векторов-столбцов x образуют M x матрица N)
(4) Задайте матрицу N x M X , где N строк соответствуют N выборкам, M столбцов соответствуют M переменным, задайте N-мерный вектор-столбец y , а N измерений соответствуют N выборкам. Можно видеть, что комбинация первой группы векторов-столбцов x является транспонированной матрицей X, а комбинация последней группы действительных чисел y является транспонированной вектор-столбца y.

\begin{aligned} A &=\left(w^{T} x_{1}-y_{1} \ldots w^{T} x_{N}-y_{N}\right) & (1)\\ &=\left(w^{T} x_{1} \ldots w^{T} x_{N}\right)-\left(y_{1} \ldots y_{N}\right) & (2) \\ &=w^{T}\left(x_{1} \ldots x_{N}\right)-\left(y_{1} \ldots y_{N}\right) & (3) \\ &=\quad w^{T} X^{T}-y^{T} & (4) \end{aligned}

(1) Функция стоимости записывается в виде скалярного произведения двух векторов
(2) Внесите упрощенную формулу A выше в функцию стоимости.
(3) СогласноТранспонированный характер⁵, вы можете переписать следующее транспонирование
(4) Разверните умножение
(5) Обратите внимание на два средних задания и обнаружите, что они транспонированы друг в друга, и поскольку окончательные результаты этих двух заданий являются действительными числами, результаты этих двух заданий должны быть равны, поэтому эти два задания можно объединить.

\begin{aligned} \operatorname{Cost}(w) &=A A^{T} & (1)\\ &= \left(w^{T} X^{T}-y^{T}\right)\left(w^{T} X^{T}-y^{T}\right)^{T} & (2) \\ &= \left(w^{T} X^{T}-y^{T}\right)(X w-y) & (3) \\ &= w^{T} X^{T} X w-w^{T} X^{T} y-y^{T} X w+y^{T} y & (4) \\ &= w^{T} X^{T} X w-2 w^{T} X^{T} y+y^{T} y & (5) \end{aligned}

(1) Функция стоимости вычисляет частную производную по w. Согласно формуле вывода вектора, только первый член и второй член связаны с w, а последний член является константой, и поскольку функция стоимости представляет собой выпуклая функция, когда частная производная по W равна 0 вектору, функция стоимости имеет минимальное значение.
(2) Разделите второй член на 2 после сдвига члена и одновременно умножьте обе части на обратную матрицу.Матрица в левой части уравнения и обратная матрица умножаются, чтобы стать единичной матрицей, поэтому только вектор w остается левым.

\begin{aligned} \frac{\partial \operatorname{Cost}(w)}{\partial w} &=2 X^{T} X w-2 X^{T} y=0 & (1)\\ w &=\left(X^{T} X\right)^{-1} X^{T} y & (2) \end{aligned}

Таким образом, аналитическое решение w находится.Вы можете видеть, что необходимо найти обратную матрицу матрицы.Когда матрица N x N в скобках нематрица полного ранга⁶Нет обратной матрицы, когда нет обратной матрицы, и суть ее в том, что естьмультиколлинеарность⁷(Мультиколлинеарность), в следующем разделе будет представлена мультиколлинеарность в линейной регрессии и способы решения этой проблемы мультиколлинеарности. Часть перед вектором y в следующем уравнении называется псевдообратной матрицей X и может быть получена с помощьюсингулярное разложение⁸(SVD) Находит псевдообратную матрицу.

w=\underbrace{\left(X^{T} X\right)^{-1} X^{T}}_{X^{+}} y

Вы можете видеть, что X представляет собой матрицу N x M, а y представляет собой N-мерный вектор-столбец. В приведенном выше примере рабочих лет и средней месячной заработной платы X представляет собой матрицу 5 x 2, y представляет собой 5-мерный вектор-столбец, и, наконец, w можно рассчитать как 2-мерный вектор-столбец, тогда линейное уравнение этого примера у = 2172,5 * х - 512,5.

X = \begin{bmatrix} 1 & 1\\ 1 & 2\\ 1 & 3\\ 1 & 4\\ 1 & 5 \end{bmatrix} \quad y = \begin{pmatrix} 1598\\ 3898\\ 6220\\ 7799\\ 10510 \end{pmatrix}

w=\left(X^{T} X\right)^{-1} X^{T} y=\left(\begin{array}{c} -512.5 \\ 2172.5 \end{array}\right)

Геометрическая интерпретация аналитических решений функции стоимости линейной регрессии
Матричная форма линейного уравнения, где y — N-мерный вектор-столбец, X — матрица N x M, а w — M-мерный вектор-столбец:

y = Xw

Давайте сначала посмотрим на рисунок ниже.Серая гиперплоскость S состоит из M черных N-мерных векторов-столбцов X, а красный N-мерный вектор-столбец y представляет собой значение y фактической точки выборки.В примере рабочих лет и среднемесячная заработная плата, х1 = (1 , 1, 1, 1, 1), х2 = (1, 2, 3, 4, 5), у = (1598, 3898, 6220, 7799, 10510). Теперь мы хотим найти y' после линейной комбинации вектора x, чтобы y - y' было наименьшим, что является фиолетовым вектором на рисунке. Как видно из рисунка, когда y — y' — вектор нормали к гиперплоскости, он является кратчайшим, что также эквивалентно тому, что y — y' перпендикулярно каждому вектору x.

геометрическая интерпретация

(1) y - y' перпендикулярно каждому вектору x, обратите внимание, что результатом является M-мерный нулевой вектор
(2) Замените линейное уравнение y'
(3) Раскрыть скобки
(4) После сдвига члена можно решить w

\begin{array}{l} X^{T}\left(y-y^{\prime}\right)=0 & (1) \\ X^{T}(y-X w)=0 & (2)\\ X^{T} y-X^{T} X w=0 & (3) \\ w=\left(X^{T} X\right)^{-1} X^{T} y & (4) \end{array}

Видно, что геометрическая интерпретация согласуется с результатами, полученными путем вывода

Пять, реализация кода

Реализуйте алгоритм линейной регрессии с помощью Python:

def linear(X, y):
    """
    线性回归
    args:
        X - 训练数据集
        y - 目标标签值
    return:
        w - 权重系数
    """
   # pinv 函数直接求矩阵的伪逆矩阵
   return np.linalg.pinv(X).dot(y)

6. Реализация сторонней библиотеки

scikit-learn⁹выполнить:

from sklearn.linear_model import LinearRegression

# 初始化线性回归器
lin = LinearRegression(fit_intercept=False)
# 拟合线性模型
lin.fit(X, y)
# 权重系数
w = lin.coef_

Семь, демонстрация анимации

Когда линейное уравнение принимает разные весовые коэффициенты, соответствующая функция стоимости изменяется, мы можем видеть, что функция стоимости сначала уменьшается до минимального значения, а затем постепенно увеличивается.

Восемь, интеллект-карта

9. Ссылки

En. Wikipedia.org/wiki/linear…
En. Wikipedia.org/wiki/Euclid…
En. Wikipedia.org/wiki/arg_horse…
En. Wikipedia.org/wiki/convex…
En. Wikipedia.org/wiki/trans П…
En. Wikipedia.org/wiki/rank_(…
En. Wikipedia.org/wiki/multi C…
En. Wikipedia.org/wiki/sin призывает…
SCI kit-learn.org/stable/Modu…

Нажмите для полной демонстрацииздесь

Примечание. Эта статья стремится быть точной и легкой для понимания, но поскольку автор также новичок и имеет ограниченный уровень, если в тексте есть ошибки или упущения, я призываю читателей критиковать и исправлять их, оставляя сообщение.
Эта статья была впервые опубликована на -карта ИИ, добро пожаловать, чтобы следовать