Математический вывод линейной регрессии

машинное обучение
Математический вывод линейной регрессии

Оригинальная ссылка на личный блог

1. Математическая основа

1. Функция правдоподобия

Вероятность: описывает выход случайной величины, когда параметры известны;

Функция правдоподобия (правдоподобие): используется для описания возможных значений неизвестных параметров, когда известен выход известных случайных величин.

L(\theta | x) = f(x | \theta)

Функция правдоподобия и функция плотности - это два совершенно разных математических объекта, первая примерно\thetaфункция, последняя примерноxФункция.

2. Распределение Гаусса

Математическое ожидание (среднее): В испытании вероятность каждого возможного исхода, умноженная на сумму его исходов.

(Бернулли) Закон больших чисел: Когда количество испытаний достаточно велико, частота события бесконечно близка к вероятности возникновения события.

тест Бернулли: Предположим, что эксперимент E имеет только два возможных исхода: «А» и «не А».

n повторный тест Бернулли: Если E повторяется n раз независимо, то этот независимый тест на повторение ношения называется n-кратным тестом Бернулли.

Биномиальное распределение (распределение Бернулли): Эксперимент Бернулли повторяется n раз, и количество успехов k в этом n эксперименте, k является случайной величиной, называемой квадратичной случайной величиной, а ее распределение называется биномиальным распределением

P(X = k) = C_n^kp^k(1-p)^{n-k} , k = 1,2,...,n

нормальное распределение: Также известно как «распределение Гаусса».

f(x) = \frac 1 {\sqrt{2 \pi }\sigma} e ^ {- \frac {(x^2-\mu^2)} {2\sigma^2}}

3. Логарифмическая формула

\log AB = \log A + \log B

4. Матричный расчет

Транспонирование матрицы: строка в столбец, столбец в строку.

умножение матриц: количество столбцов A должно быть равно количеству строк B

A =  \left[ \begin{matrix} a & b & c  \end{matrix} \right] \\\\ B =  \left[ \begin{matrix} e & f & g \end{matrix} \right] \\\\ A^T B = ae + bf + cg

Вывод матрицы

\frac {d( { x ^ T A X } )} {d(x)} = 2Ax \\\\ \frac {d( { x ^ T A } )} {d(x)} = A \\\\ \frac {d( { A x} )} {d(x)} = {A ^ T}

2. Вывод

1. Формула линейной регрессии

y = wx + b

При наличии нескольких параметров признаков разные параметры признаков имеют разные весовые параметры для значения целевой функции.

h_\theta(x) = \theta _ 1 x _ 1 + \theta _2 x _ 2 + ... + \theta _n x _ n  \\\\ = \sum_{i=1}^n\theta _ i x _ i

Используйте матрицу для представления

\theta^T x = \left[ \begin{matrix} \theta _ 1 \\\\ \theta _ 2 \\\\ .\\\\ .\\\\ .\\\\ \theta _ n \\\\ \end{matrix} \right] \left[ \begin{matrix} x _ 1 & x _ 2 & ... & x _ n  \end{matrix} \right] = \sum_{i=1}^n\theta _ i x _ i = h_\theta(x)

2. Ошибка расчета

Термин ошибки: ошибка между фактическим значением и прогнозируемым значением, мы обычно хотим, чтобы ошибка была как можно меньше.

h_\theta(x) = \theta ^ T x + \xi
y ^ {(i)} = \theta ^ T x ^ {(i)} + \xi ^ {(i)}

Член ошибки следует распределению Гаусса, поэтому

P(\xi _ i) = \frac 1 { \sqrt {2 \pi } \sigma} e ^ { - \frac { \xi ^ 2 } { 2 \sigma ^ 2}}
P(y _ i | x _ i ; \theta) = \frac 1 { \sqrt { 2 \pi } \sigma } e ^ { - \frac { { (y _ i - \theta ^ T x _ i)} ^ 2 } {2 \sigma ^ 2 } }

Для расчета определенных комбинаций параметров и признаков для минимизации ошибки здесь вводится функция правдоподобия.

L(\theta) = \prod_{ i=1 }^{ m } P(y _ i | x _ i ; \theta) = \prod_{i=1}^{m} \frac 1 { \sqrt{2 \pi } \sigma } e ^ {- \frac { { (y _ i - \theta ^ T x _ i) } ^ 2 } { 2\sigma^2 } }
\log L(\theta) = \log \prod_{i=1}^{m} \frac 1 { \sqrt{ 2 \pi }\sigma } e ^ { - \frac { { ( y _ i - \theta ^ T x _ i ) } ^ 2 } { 2\sigma^2 } }
= \sum_{i=1}^{m} \log  \frac 1 { \sqrt{ 2 \pi }\sigma } e ^ { - \frac { { (y _ i - \theta ^ T x _ i) } ^ 2 } { 2\sigma^2 } }
= \sum_{i=1}^{m} ( \log  \frac 1 { \sqrt{ 2 \pi }\sigma } + \log e ^ { - \frac { { ( y _ i - \theta ^ T x _ i ) } ^ 2 } { 2 \sigma ^ 2 } })
= m \log \frac 1 { \sqrt{ 2 \pi }\sigma } - \frac 1 { 2 { \sigma } ^ 2 } \sum_{i=1}^{m} { ( y _ i - \theta ^ T x _ i ) } ^ 2

Поскольку фиксированное значение не рассматривается, получаетсяJ(\theta)Чем меньше, тем лучше

J(\theta) = \frac 1 {2} \sum_{i=1}^{m} {(y _ i - \theta ^ T x _ i)} ^ 2

3. Частные производные матрицы

В соответствии с знанием матрицы преобразуйте приведенную выше формулу

J(\theta) = \frac 1 {2} \sum_{i=1}^{m} {(h _ \theta(x _ i) - y _ i)} ^ 2
= \frac 1 {2} (x \theta - y) ^ T (x \theta - y)

Частная производная матрицы

\partial_\theta J(\theta) = \partial _ \theta ( { \frac 1 {2} (x \theta - y) ^ T (x \theta - y) } )
= \partial_\theta { ( \frac 1 {2} ( \theta ^ T x ^ T - y ^ T )  (x \theta - y) ) }
= \partial _ \theta { ( \frac 1 {2} ( { \theta ^ T x ^ T x \theta } - { \theta ^ T x ^ T y } - {y ^ T x \theta } + {y ^ T y } ) }
=  \frac 1 {2} ( { 2 x ^ T x \theta } - { x ^ T y } - { (y ^ T x) ^ T } )
=  {x ^ T x \theta} - { x ^ T y}

4. Окончательное решение

В лучшем случае частная производная равна 0, что указывает на то, что снижение градиента достигло дна.

Оптимальный вес линейной регрессии решается следующим образом:

\theta = {(x ^ T x) ^ {-1}} {x ^ T} y