Restart Machine Learning Foundation — линейная регрессия (1), матричная перспектива

машинное обучение искусственный интеллект
Restart Machine Learning Foundation — линейная регрессия (1), матричная перспектива

Это первый день моего участия в ноябрьском испытании обновлений, подробности о мероприятии:Вызов последнего обновления 2021 г.

Основы машинного обучения, а далее сегодня мы в основном говорим о линейной регрессии, простейшей модели.

Давайте сначала поговорим о линейной регрессии концептуально.Линейная регрессия состоит из двух слов, первое линейное, а затем регрессия.

линейный

Линейность Возможно, мы столкнулись с этим еще в средней школе Например, y равно ax плюс b. Его можно представить, нарисовав прямую линию в плоскости, образованной y xy=ax+by= ax + b. Тогда каждый раз, когда вы вводите x в это уравнение, вы получаете y.

y=ax+by = ax + b

Здесь a — это наклон, а b — точка пересечения, также называемая смещением. Это уравнение выражает линейную зависимость между y и x, которая геометрически представляет собой прямую линию.

возвращение

Так что же такое регресс? Звучит благороднее. Чтобы проанализировать взаимосвязь между x и y для этой независимой переменной и зависимой переменной. Мы можем использовать точечный график, чтобы отобразить x и y на плоскости, и эти точки разбросаны по плоскости с определенной регулярностью. В этом случае мы можем использовать прямую линию. Эта линия очень хорошо описывает эти разбросанные точки. То есть соответствовать этим точкам, это регрессия, например, этот рост и вес. Тогда существует линейная зависимость между площадью дома и ценой дома, Например, связь между холестерином и возрастом можно предсказать с помощью регрессии.

данные

Опишем задачу математическим языком.

D={(x1,y1),(x2,y2),(xi,yi)}ND = \{ (x_1,y_1),(x_2,y_2),\cdots (x_i,y_i)\}_N

Предположим, что наш набор данных представлен большим D, и каждая выборка представляет собой вектор mxiеRmx_i \in \mathbb{R}^mзаyiy_iэто реальное числоyiеRy_i \in \mathbb{R}

Набор данных может подчиняться распределению вероятностей, но на самом деле мы можем наблюдать только выборку и только часть всех данных Мы не знаем, действительно ли данные подчиняются распределению вероятностей. Об истинном распределении можно судить только по наблюдаемым образцам.

Хорошо предположим, что есть X и Y, представляющие наборы x и y соответственно, поскольку x является вектор-столбцом, поэтомуX=(x1,x2,,xN)TX = (x_1,x_2,\cdots, x_N)^TНетрудно видеть, что каждая строка X является образцомxix_i, то есть Y является(y1,y2,,yN)T(y_1, y_2,\cdots,y_N)^T

[x11x12x1mx21x22x2mxn1xn2xnm]N×m\begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1m}\\ x_{21} & x_{22} & \cdots & x_{2m}\\ \vdots & \vdots & \cdots & \vdots\\ x_{n1} & x_{n2} & \cdots & x_{nm}\\ \end{bmatrix}_{N \times m}

функция потерь

Рассчитайте функцию потерь, где мыy^=wTxi\hat{y} = w^Tx_iзатем вычислитьwTxiyiw^Tx_i - y_iРасстояние между, то есть найти такую ​​прямую, расстояние между точкой прямой и расчетной точкой

L(w)=i=1NwTxiyi2L(w) = \sum_{i=1}^N ||w^Tx_i - y_i||^2

Затем мы кладемwTxiyi2||w^Tx_i - y_i||^2Эта часть пытается представить его в матричной форме, сначала разверните его следующим образом

(wTx1y1,wTx2y2,,wTxNyN)(wTx1y1wTx2y2wTxNyN)(w^Tx_1 - y_1,w^Tx_2 - y_2, \cdots, w^Tx_N - y_N ) \left( \begin{matrix} w^Tx_1 - y_1\\ w^Tx_2 - y_2\\ \vdots\\ w^Tx_N - y_N\\ \end{matrix} \right)

который затем еще больше упрощается и преобразуется в(x1,x2,,xN)(x_1,x_2,\cdots,x_N)преобразовать вXTX^Tи воля(y1,y2,,yN)(y_1,y_2, \cdots, y_N) заYTY^T

(wTXTYT)(w^TX^T - Y^T)

(wTx1y1,wTx2y2,,wTxNyN)=wT(x1,x2,,xN)(y1,y2,,yN)=(wTXTYT)(w^Tx_1 - y_1,w^Tx_2 - y_2, \cdots, w^Tx_N - y_N ) = w^T(x_1,x_2,\cdots,x_N) - (y_1,y_2,\cdots,y_N)= (w^TX^T - Y^T)
(wTXTYT)(XwY)wTXTXwwTXTY+YTXwYwTXTXw2wTXTY+YTY(w^TX^T - Y^T)(Xw - Y)\\ w^TX^TXw - w^TX^TY + Y^TXw - Y\\ w^TX^TXw - 2w^TX^TY + Y^TY

wTXTYw^TX^TYэти двоеYTXwY^TXwна самом деле действительные числа, потому чтоwTw^Tвыражать1×m1 \times m XTX^TРазмерm×Nm \times NТак что получить1×N1 \times Nразмерность, суммаN×1N \times 1измерениеYYУмножение матриц дает число, потому чтоYTXwY^TXwтакже является числом, поэтому два термина могут быть объединены в один термин.

Далее вывод матрицы

L(w)w=2XTXw2XTY=0w=(XTX)1XTY\frac{\partial L(w)}{\partial w} = 2X^TXw - 2 X^TY = 0\\ w = (X^TX)^{-1}X^TY