Эта статья возникла из личного публичного аккаунта:TechFlow, оригинальность это не просто, прошу внимания
СегодняТемы теории вероятностей и статистикиВ шестой части мы рассмотрим концепцию корреляции дисперсии.
Определение дисперсии
Дисперсия очень распространена в нашей повседневной жизни, в основном дляПредоставляет описание того, насколько резко выделяется образец.. В качестве простого примера, давайте купим пакет картофельных чипсов, вообще говоря, количество картофельных чипсов в пакете фиксировано. Предположим, что в каждом пакете в среднем 50 чипсов, даже если машина заполнена, невозможно сделать каждый пакет ровно по 50 чипсов, и ошибок будет больше или меньше. Среднее значение не может измерить эту ошибку.
Если сейчас есть две марки картофельных чипсов, все они на вкус примерно одинаковы, а средний пакет — 50 чипсов. Но половина картофельных чипсов марки А имеет размер 80, а половина — 20. Что касается бренда B, 99% находятся в диапазоне от 45 до 55 лет. Какую марку вы бы купили? (без учета взвешиванием).
В современном обществе все продукты с фабрик в основном неотделимы от концепции дисперсии. Чем ниже дисперсия, тем сильнее производственная мощность фабрики, которая может сделать каждый продукт очень хорошим, и наоборот, если дисперсия больше, это означает, что дефектов много, и они недостаточно хороши. То есть дисперсия измеряет ожидание выборочного расстояния от среднего значения.
Это должно было быть написано так:.
Но поскольку в формуле есть абсолютное значение, мы обычно возводим его в квадрат, чтобы исключить абсолютное значение. написано как:
E здесь представляет собой ожидание, которое записывается в статистике.Если вы этого не понимаете, мы также можем расширить формулу и записать ее как:
Здесь N представляет количество выборок,является выборочным средним. Var — это аббревиатура английского слова variance, и мы также можем записать его как D(X).
Поскольку дисперсия вычисляется путем возведения в квадрат, мы также можем возвести ее в квадрат, чтобы получитьсреднеквадратичное отклонение., что также можно записать как
.
характер отклонения
Есть несколько хорошо известных свойств дисперсии, если X — переменная, а C — константа. Так:
То есть, если каждую переменную умножить на константу, то общая дисперсия увеличивается на квадрат C. Это легко понять, потому что значение выборки расширяется в С раз, а так как мы используем квадрат при расчете дисперсии, то она естественным образом расширяется на квадрат С. Мы можем легко доказать это, подставив развернутую выше формулу.
Следующие свойства:
То есть, добавляя константу ко всей выборке, общая дисперсия остается неизменной. Если наша выборка не величина, а вектор, то эту формулу можно распространить на выборку плюс постоянный вектор, и дисперсия выборки останется неизменной. Это тоже хорошо понятно.Добавление постоянного вектора к выборке эквивалентно перемещению всего расстояния в направлении вектора.не влияет на общее распределение.
Если дисперсия выборки X равна 0, это означает, что в выборке имеется только одно значение.
Следующее свойство немного сложнее:
То есть дисперсия равнаОжидаемая квадратичная выборка минус квадратичная ожидаемая выборка, нам трудно сделать этот вывод только из определения, и его необходимо вывести путем строгого вывода:
В некоторых случаях нам неудобно напрямую решать дисперсию выборки, и легко решить квадрат математического ожидания, В настоящее время мы можем рассмотреть возможность использования этой формулы для замены.
Дисперсия и ковариация
Дисперсия обычно не используется напрямую в машинном обучении, но чаще используется при анализе признаков, когда изучается дисперсия признака, чтобы воспринимать его.дискретный случай, решает, следует ли выполнять какую-либо обработку объекта. Потому что для некоторых моделей, если дисперсия признаков слишком велика, модель может быть трудно сойтись, или может быть затронут эффект сходимости. В настоящее время часто необходимо рассмотреть возможность использования некоторых методов для стандартизации собственных значений.
В дополнение к дисперсии часто используется похожее понятие — ковариация, которая измеряет корреляцию между двумя переменными.
Формула ковариации на самом деле неотделима от дисперсии, сначала кратко выведем ее.
Во-первых, давайте посмотрим на D(X+Y), где X и Y две переменные, D(X+Y) представляет дисперсию X+Y, давайте посмотрим на D(X+Y) и D(X) и D (Ю).
Мы можем вывести это, согласно определению дисперсии:
Здесь N — константа, мы можем игнорировать ее и просто использовать для просмотра числителя. Расширяем формулу:
Давайте посмотрим на результат после приведенного выше упрощения:
в этой формуле,
фиксированы и не меняются в зависимости от того, коррелирован XY или нет. Но последнего пункта нет, он связан с корреляцией XY.
Мы можем использовать этот термин, чтобы отразить корреляцию между X и Y, котораяКовариацияФормула:
Таким образом, ковариация отражает не дисперсию и распределение переменных, а корреляцию между двумя переменными. В этот момент мы, возможно, не сможем ясно видеть, это не имеет значения, давайте сделаем простую деформацию и разделим ее на стандартное отклонение двух:
Эта форма уже очень похожа на знаменитый косинус угла между двумя векторами.Стоимость Пирсона. Значение Пирсона похоже на значение косинуса и может отражать разницу между двумя распределениями.Корреляция, если p-значение больше 0, это означает, что две группы переменных положительно коррелированы, в противном случае они отрицательно коррелированы. Мы можем доказать вычислением, что p-значение представляет собой число от -1 до 1.
Если p-значение равно 0, это означает, что X и Y полностью независимы и не имеют корреляции. Если значение p равно 1, это означает, что можно найти соответствующие коэффициенты W и b такие, что Y = WX+b.
конец
В области машинного обучения вычисление корреляции между двумя наборами переменных очень важно. Потому что, по сути, модель машинного обучения передаетАнализ корреляций между признаками и прогнозируемыми значениямиЧтобы делать прогнозы, если существует полная независимость между набором признаков и прогнозируемыми значениями, то это бесполезно для модели, какую бы модель мы ни выбрали.
Поэтому мы часто измеряем важность функции, анализируя значение Пирсона между функцией и меткой, чтобы выбрать и повторно обработать функцию. Если просто посмотреть на значение Пирсона и его формулу, то ее сложно полностью понять и запомнить, но мы начинаем с дисперсии и разбираем всю связь, это гораздо проще, даже если вы потом забудете, вы можете пере- вывод отношения между.
Сегодняшняя статья здесь, оригинальность не из легких,Отсканируйте код, чтобы следоватьМеня, для большего количества больших статей.