Это 24-й день моего участия в августовском испытании обновлений. Узнайте подробности события:Испытание августовского обновления

Регуляризация линейной регрессии

Для линейной регрессии мы ранее обсуждали два алгоритма:

градиентный спуск
нормальное уравнение

Regularized linear regression

\begin{aligned} &J(\theta)=\frac{1}{2 m}\left[\sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}+\lambda \sum_{j=1}^{n} \theta_{j}^{2}\right] \\ &\min _{\theta} J(\theta) \end{aligned}

Для приведенной выше функции стоимости мы хотим найти подходящее θ, чтобы минимизировать ее.

Gradient descent

Помните, что традиционный градиентный спуск выглядит так:

Repeat {

$\theta_{j}:=\theta_{j}-\alpha \quad \frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{j}^{(i)} \quad\quad (j=0,1,2,3, \ldots, n)$

}

Теперь поместите градиентный спуск в $\theta_0$ Просто выньте его и добавьте штрафной пункт к остальным. Поскольку, как упоминалось ранее, срок наказания составляет от $\theta_{1}$ началось.

Repeat {

$\theta_{0}:=\theta_{0}-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{0}^{(i)}$

$\theta_{j}:=\theta_{j}-\alpha \lbrack\frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{j}^{(i)}+\frac{\lambda}{m} \theta_{j} \rbrack \quad\quad (j=1,2,3, \ldots, n)$

}

После упрощения это можно записать так:

Repeat {

$\theta_{0}:=\theta_{0}-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{0}^{(i)}$

$\theta_{j}:=\theta_{j}\left(1-\alpha \frac{\lambda}{m}\right)-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{j}^{(i)} \quad\quad (j=0,1,2,3, \ldots, n)$

}

Normal equaion

Исходное нормальное уравнение:

$\theta=\left(X^{T} X\right)^{-1} X^{T} y$

в $X = \begin{bmatrix} ...(x^i_0)^T... \\ ...(x^i_1)^T... \\ ...(x^i_2)^T...\\ ...\\ ...(x^i_n)^T...\end{bmatrix} \in \R^{m \times n+1} \quad\quad\quad$ $y = \begin{bmatrix} y^1 \\ y^2 \\ y^3 \\ ...\\ y^m \end{bmatrix} \in \R^m$

После использования регуляризации

\theta=\left(x^{\top} x+\lambda\left[\begin{array}{lllll} 0 & & & \\ & 1 & & \\ & & 1 & \\ & & & \cdots \\ & & & & 1 \end{array}\right]\right)^{-1} x^T y

где эта диагональная матрица $\left[\begin{array}{lllll} 0 & & & \\ & 1 & & \\ & & 1 & \\ & & & \cdots \\ & & & & 1 \end{array}\right]$ измерение $\R_{n+1 \times n+1}$

Регуляризация для логистической регрессии

Функция стоимости для логистической регрессии:

$\begin{aligned} J(\theta) =-\frac{1}{m}\left[\sum_{i=1}^{m} y^{(i)} \log h_{\theta}\left(x^{(i)}\right)+\left(1-y^{(i)}\right) \log \left(1-h_{\theta}\left(x^{(i)}\right)\right)\right] \end{aligned}$

Мы также добавим один сзади, после добавления:

\begin{aligned} J(\theta) =-\frac{1}{m}\left[\sum_{i=1}^{m} y^{(i)} \log h_{\theta}\left(x^{(i)}\right)+\left(1-y^{(i)}\right) \log \left(1-h_{\theta}\left(x^{(i)}\right)\right)\right]+\frac{\lambda}{2 m} \sum_{j=1}^{n} \theta_{j}^{2} \end{aligned}

После его добавления, даже если вы соответствуете большому количеству параметров и высокому порядку, пока вы добавляете этот член регуляризации и сохраняете параметры небольшими, вы все равно можете получить разумную границу решения.

градиентный спуск

Мы уже знаем, что линейная регрессия и логистическая регрессия выглядят одинаково по форме, поэтому мы напрямую перемещаем градиентный спуск линейной регрессии:

Repeat {

$\theta_{0}:=\theta_{0}-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{0}^{(i)}$

$\theta_{j}:=\theta_{j}-\alpha \lbrack\frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{j}^{(i)}+\frac{\lambda}{m} \theta_{j} \rbrack \quad\quad (j=1,2,3, \ldots, n)$

}

Чтобы его регуляризация соответствовала логистической регрессии, нам нужно добавить единицу ко второму выражению:

Repeat {

$\theta_{0}:=\theta_{0}-\alpha \frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{0}^{(i)}$

$\theta_{j}:=\theta_{j}-\alpha \lbrack\frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{j}^{(i)}+\frac{\lambda}{m} \theta_{j} \rbrack \quad\quad (j=1,2,3, \ldots, n)$

}

Хотя это похоже на линейную регрессию, важно помнить разницу между ними. $h(x)$ Есть разница.

Advanced optimization

Говоря о логистической регрессии, помимо градиентного спуска, мы также упомянули другие продвинутые алгоритмы, но не вдавались в них подробно. Итак, как использовать регуляризацию в продвинутых алгоритмах

$function [jVal, gradient] = costFunction (theta)$

$jVal$ =[ code to compute $J(\theta)$ ]

$gradient (1)=\left[\right.$ code to compute $\left.\frac{\partial}{\partial \theta_{0}} J(\theta)\right]$

$gradient (2)=\left[\right.$ code to compute $\left.\frac{\partial}{\partial \theta_{1}} J(\theta)\right]$

...

$gradient (n+1)=\left[\right.$ code to compute $\left.\frac{\partial}{\partial \theta_{n}} J(\theta) \quad\right]$

Вам все еще нужно написать свою собственную функцию costFunction, в этой функции:

$function [jVal, gradient] = costFunction (theta)$ Нужно пройти в тета, тета $=\left[\begin{array}{c}\theta_{0} \\ \theta_{1} \\ \vdots \\ \theta_{n}\end{array}\right]$
$jVal$ =[ code to compute $J(\theta)$ ] Это предложение является выражением для записи функции стоимости J
$gradient (1)=\left[\right.$ code to compute $\left.\frac{\partial}{\partial \theta_{0}} J(\theta)\right]$ это рассчитать $\frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{0}^{(i)}$
$gradient (n+1)=\left[\right.$ code to compute $\left.\frac{\partial}{\partial \theta_{n}} J(\theta) \quad\right]$ это рассчитать $\frac{1}{m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{n}^{(i)}+\frac{\lambda}{m}J(\theta_n)$