Машинное обучение — дисперсия, ковариация и значения Пирсона

математика

Эта статья возникла из личного публичного аккаунта:TechFlow, оригинальность это не просто, прошу внимания


СегодняТемы теории вероятностей и статистикиВ шестой части мы рассмотрим концепцию корреляции дисперсии.


Определение дисперсии


Дисперсия очень распространена в нашей повседневной жизни, в основном дляПредоставляет описание того, насколько резко выделяется образец.. В качестве простого примера, давайте купим пакет картофельных чипсов, вообще говоря, количество картофельных чипсов в пакете фиксировано. Предположим, что в каждом пакете в среднем 50 чипсов, даже если машина заполнена, невозможно сделать каждый пакет ровно по 50 чипсов, и ошибок будет больше или меньше. Среднее значение не может измерить эту ошибку.

Если сейчас есть две марки картофельных чипсов, все они на вкус примерно одинаковы, а средний пакет — 50 чипсов. Но половина картофельных чипсов марки А имеет размер 80, а половина — 20. Что касается бренда B, 99% находятся в диапазоне от 45 до 55 лет. Какую марку вы бы купили? (без учета взвешиванием).

В современном обществе все продукты с фабрик в основном неотделимы от концепции дисперсии. Чем ниже дисперсия, тем сильнее производственная мощность фабрики, которая может сделать каждый продукт очень хорошим, и наоборот, если дисперсия больше, это означает, что дефектов много, и они недостаточно хороши. То есть дисперсия измеряет ожидание выборочного расстояния от среднего значения.

Это должно было быть написано так:E|X-E(X)|.

Но поскольку в формуле есть абсолютное значение, мы обычно возводим его в квадрат, чтобы исключить абсолютное значение. написано как:

Var(X) = E\{[X-E(X)]^2\}

E здесь представляет собой ожидание, которое записывается в статистике.Если вы этого не понимаете, мы также можем расширить формулу и записать ее как:

Var(X) = \frac{\sum_{i=1}^N (X_i - \bar{X})^2}{N-1}

Здесь N представляет количество выборок,\bar{X}является выборочным средним. Var — это аббревиатура английского слова variance, и мы также можем записать его как D(X).

Поскольку дисперсия вычисляется путем возведения в квадрат, мы также можем возвести ее в квадрат, чтобы получитьсреднеквадратичное отклонение.\sqrt{D(X)}, что также можно записать как\sigma(X).


характер отклонения


Есть несколько хорошо известных свойств дисперсии, если X — переменная, а C — константа. Так:

D(CX)=C^2D(X)

То есть, если каждую переменную умножить на константу, то общая дисперсия увеличивается на квадрат C. Это легко понять, потому что значение выборки расширяется в С раз, а так как мы используем квадрат при расчете дисперсии, то она естественным образом расширяется на квадрат С. Мы можем легко доказать это, подставив развернутую выше формулу.

Следующие свойства:

D(X+C) = D(X)

То есть, добавляя константу ко всей выборке, общая дисперсия остается неизменной. Если наша выборка не величина, а вектор, то эту формулу можно распространить на выборку плюс постоянный вектор, и дисперсия выборки останется неизменной. Это тоже хорошо понятно.Добавление постоянного вектора к выборке эквивалентно перемещению всего расстояния в направлении вектора.не влияет на общее распределение.

Если дисперсия выборки X равна 0, это означает, что в выборке имеется только одно значение.

Следующее свойство немного сложнее:

D(X) = E(X^2) - [E(X)]^2

То есть дисперсия равнаОжидаемая квадратичная выборка минус квадратичная ожидаемая выборка, нам трудно сделать этот вывод только из определения, и его необходимо вывести путем строгого вывода:

\begin{aligned} D(X) &= E\{[X-E(X)]^2\} \\ &= E\{X^2 -2XE(X) + [E(X)]^2\}\\ &= E(X^2) - 2E(X)E(X) + [E(X)]^2 \\ &= E(X^2) - [E(X)]^2 \end{aligned}

В некоторых случаях нам неудобно напрямую решать дисперсию выборки, и легко решить квадрат математического ожидания, В настоящее время мы можем рассмотреть возможность использования этой формулы для замены.


Дисперсия и ковариация


Дисперсия обычно не используется напрямую в машинном обучении, но чаще используется при анализе признаков, когда изучается дисперсия признака, чтобы воспринимать его.дискретный случай, решает, следует ли выполнять какую-либо обработку объекта. Потому что для некоторых моделей, если дисперсия признаков слишком велика, модель может быть трудно сойтись, или может быть затронут эффект сходимости. В настоящее время часто необходимо рассмотреть возможность использования некоторых методов для стандартизации собственных значений.

В дополнение к дисперсии часто используется похожее понятие — ковариация, которая измеряет корреляцию между двумя переменными.

Формула ковариации на самом деле неотделима от дисперсии, сначала кратко выведем ее.

Во-первых, давайте посмотрим на D(X+Y), где X и Y две переменные, D(X+Y) представляет дисперсию X+Y, давайте посмотрим на D(X+Y) и D(X) и D (Ю).

Мы можем вывести это, согласно определению дисперсии:

D(X+Y) = \frac{[(X+Y) - E(X+Y)]^2}{N}

Здесь N — константа, мы можем игнорировать ее и просто использовать для просмотра числителя. Расширяем формулу:

\begin{aligned} D(X+Y) &= \frac{1}{N}(X^2+2XY+Y^2-2(X+Y)E(X+Y)) \\ &= \frac{1}{N}(X^2+2XY+Y^2-2(X+Y)\overline{(X+Y)} + \overline{(X+Y)}^2) \\ &= \frac{1}{N}(X^2 + 2XY + Y^2 - 2(X\bar{X}+X\bar{Y}+\bar{X}Y+Y\bar{Y})+ \bar{X}^2 + 2\bar{X}\bar{Y} + \bar{Y}^2) \\ &= \frac{1}{N}((X-\bar{X})^2 + (Y-\bar{Y})^2+2(XY + \bar{X}\bar{Y} - X\bar{Y} - \bar{X}Y)) \\ &= \frac{1}{N}((X-E(X))^2 + (Y - E(Y))^2 + 2(X-E(X))(Y-E(Y))) \\ &= D(X) + D(Y) + 2E((X - E(X))(Y-E(Y))) \end{aligned}

Давайте посмотрим на результат после приведенного выше упрощения:

D(X+Y) = D(X) + D(Y) + 2E((X - E(X))(Y-E(Y)))

в этой формулеD(X),D(Y)фиксированы и не меняются в зависимости от того, коррелирован XY или нет. Но последнего пункта нет, он связан с корреляцией XY.

Мы можем использовать этот термин, чтобы отразить корреляцию между X и Y, котораяКовариацияФормула:

Cov(X, Y) = E((X - E(X))(Y-E(Y)))

Таким образом, ковариация отражает не дисперсию и распределение переменных, а корреляцию между двумя переменными. В этот момент мы, возможно, не сможем ясно видеть, это не имеет значения, давайте сделаем простую деформацию и разделим ее на стандартное отклонение двух:

p = \frac{E((X-\bar{X})(Y-\bar{Y}))}{\sqrt{D(X)}\sqrt{D(Y)}}= \frac{E((X-\bar{X})(Y-\bar{Y}))}{\sqrt{\sum (X-\bar{X})^2}\sqrt{\sum (Y-\bar{Y})^2}}

Эта форма уже очень похожа на знаменитый косинус угла между двумя векторами.Стоимость Пирсона. Значение Пирсона похоже на значение косинуса и может отражать разницу между двумя распределениями.Корреляция, если p-значение больше 0, это означает, что две группы переменных положительно коррелированы, в противном случае они отрицательно коррелированы. Мы можем доказать вычислением, что p-значение представляет собой число от -1 до 1.

Если p-значение равно 0, это означает, что X и Y полностью независимы и не имеют корреляции. Если значение p равно 1, это означает, что можно найти соответствующие коэффициенты W и b такие, что Y = WX+b.


конец


В области машинного обучения вычисление корреляции между двумя наборами переменных очень важно. Потому что, по сути, модель машинного обучения передаетАнализ корреляций между признаками и прогнозируемыми значениямиЧтобы делать прогнозы, если существует полная независимость между набором признаков и прогнозируемыми значениями, то это бесполезно для модели, какую бы модель мы ни выбрали.

Поэтому мы часто измеряем важность функции, анализируя значение Пирсона между функцией и меткой, чтобы выбрать и повторно обработать функцию. Если просто посмотреть на значение Пирсона и его формулу, то ее сложно полностью понять и запомнить, но мы начинаем с дисперсии и разбираем всю связь, это гораздо проще, даже если вы потом забудете, вы можете пере- вывод отношения между.

Сегодняшняя статья здесь, оригинальность не из легких,Отсканируйте код, чтобы следоватьМеня, для большего количества больших статей.