Это 19-й день моего участия в августовском испытании обновлений.Подробности о событии:Испытание августовского обновления

Это нормальное уравнение описывается множественной линейной регрессией. В предыдущей линейной регрессии мы говорили о градиентном спуске, который выполняет формулу в цикле для постепенного спуска, в то время как нормальное уравнение является противоположным, которое напрямую ищет оптимальное решение для θ. В принципе, это можно сделать за один шаг.

Что такое нормальное уравнение?

Сначала рассмотрим простой пример:

Intuition:

If $1\mathrm{D}(\theta \in \R)$

$J(\theta)=a \theta^{2}+b \theta+c$

Теперь предположим, что θ — просто действительное число, а не вектор, а функция J — квадратичная функция относительно θ.

Как найти минимальное значение этой функции за один шаг? Пока вы изучали математику в средней школе, вы будете знать: вывод. выяснить $\frac{\text d h(x)}{\text d x} = 0$ Это x - значение, при котором функция минимизируется.

Но обычно мы не подвергаемся такого рода функциям, диапазон значений является векторным. В градиентном спуске частная производная каждого θ выполняется в цикле, и, наконец, когда θ=0 найдено, мы можем напрямую найти этот шаг равным 0.

Теперь, когда у нас есть обучающий пример, добавьте столбец в набор данных. $x_0 = 1$ Превратите этот обучающий набор в матрицу коэффициентов:

$X=\left[\begin{array}{ccccc}1 & 2104 & 5 & 1 & 45 \\ 1 & 1416 & 3 & 2 & 40 \\ 1 & 1534 & 3 & 2 & 30 \\ 1 & 852 & 2 & 1 & 36\end{array}\right]$

Также укажите y как вектор:

$y=\left[\begin{array}{l}460 \\ 232 \\ 315 \\ 178\end{array}\right]$

Матрица X содержит все собственные значения и является матрицей m*n+1, а y является m-мерной матрицей. m – количество обучающих выборок.

Теперь нужен только один шаг: $\theta=\left(X^{T} X\right)^{-1} X^{T} y$ Можно найти оптимальное решение.

Set theta to be equal to X transpose X inverse times X transpose y, this would give you the value of theta that minimizes your cost function.

Транспонирование матрицы собственных значений умножается само на себя, затем инвертируется, затем умножается на транспонирование матрицы собственных значений, а затем умножается на вектор y.

Итак, нормальное уравнение:

m examples $((x^1,y^1),...,(x^n,y^n))$ , н признаков.

Предположим теперь, что наша обучающая выборка имеет m обучающих выборок. Всего имеется n количеств признаков. Вектор функции x равен

$x = \begin{bmatrix} x^i_0 \\ x^i_1 \\ x^i_2\\ ...\\ x^i_n\end{bmatrix} \in \R^{n+1}$

И преобразование x в матрицу X становится

$X = \begin{bmatrix} ...(x^i_0)^T... \\ ...(x^i_1)^T... \\ ...(x^i_2)^T...\\ ...\\ ...(x^i_n)^T...\end{bmatrix} \in \R^{m \times n+1}$

и у:

$y = \begin{bmatrix} y^1 \\ y^2 \\ y^3 \\ ...\\ y^m \end{bmatrix} \in \R^m$

После перечисления Xy:

\theta=\left(X^{T} X\right)^{-1} X^{T} y

Просто нужно одно предложение в октавеpinv(X' * X) * x' * y

И этот метод не требует масштабирования признаков.

если $X^{T} X$ Что делать, если матрица необратима?

На самом деле в октаве есть два метода обращения матриц, один из нихpinv()Одинinv(). С первым вы можете получить правильное значение θ для красной пешки, даже если матрица необратима.

Обратимая матрица AB = BA = I, для матрицы A вы можете найти матрицу B и умножить ее, чтобы результат был равен единичной матрице, тогда матрица A является обратимой матрицей.

Вообще говоря, есть два случая необратимых матриц, с которыми вы сталкиваетесь:

Есть лишние функции как для вас

$x_1 = size \quad in \quad feet^2 \\x_2 = size \quad in \quad m^2$ Одна единица площади – это квадратные футы, а одна единица площади – это квадратные метры. В этом случае вы можете отказаться от количества признаков.
Слишком много функций (m

В этом случае некоторые количественные характеристики удаляются или упорядочиваются.

Регуляризация будет рассмотрена позже.

У меня есть незрелая идея: почему нельзя зациклить m, чтобы сделать его квадратной матрицей, хахахаха, например $\begin{bmatrix} a_{11},a_{12},a_{13},a_{14},a_{15}\\a_{21},a_{22},a_{23},a_{24},a_{25}\\a_{31},a_{32},a_{33},a_{34},a_{35}\\a_{11},a_{12},a_{13},a_{14},a_{15}\\a_{21},a_{22},a_{23},a_{24},a_{25}\end{bmatrix}$

Сравнение нормального уравнения и градиентного спуска

Gradient descent	Нормальное уравнение
Need to choose α Needs many iterations	No need to choose α Don't need to iterate
Works well even when n is large.	Need to compute $(X^TX)^{-1}$ , Медленно, если n очень велико The normal equation method actually do not work for some more sophisticated learning algorithms.

Градиентный спуск:
- недостаток:
  - Нужно попробовать несколько раз, чтобы выбрать подходящий α
  - Требуется несколько итераций
- преимущество:
  - Его можно использовать даже при большом объеме данных.
Нормальное уравнение:
- преимущество:
  - Нет необходимости выбирать α
  - Нет необходимости в нескольких итерациях
  - Не думайте о диапазоне значений для масштабирования
- недостаток:
  - нужно рассчитать $(X^TX)^{-1}$ И умножая две матрицы, порядок сложности $O(n^3)$ Поэтому, когда объем данных относительно велик, операция будет очень медленной.
  - Недоступно для некоторых сложных алгоритмов

Суммировать

Простые алгоритмы с небольшими объемами данных работают быстрее при использовании обычных уравнений. Если объем данных большой или алгоритм более сложный, вам все равно нужно использовать градиентный спуск.

Что такое нормальное уравнение?

еслиXTXX^{T} XXTXЧто делать, если матрица необратима?

Сравнение нормального уравнения и градиентного спуска

Суммировать

если $X^{T} X$ Что делать, если матрица необратима?