«Это второй день моего участия в первом испытании обновлений 2022 года. Подробную информацию о мероприятии см.:Вызов первого обновления 2022 г.".
Расстояние Махаланобиса было предложено индийским статистиком П. К. Махаланобисом и представляет собой расстояние между точкой и распределением. Это эффективный метод для вычисления сходства между двумя наборами неизвестных выборок. иЕвклидово расстояниеРазница в том, что в нем рассматривается связь между различными функциями, и в этой статье представлено содержание, связанное с расстоянием Махаланобиса.
Недостатки евклидова расстояния
Метрики расстояний широко используются в различных дисциплинах, когда данные представляются в виде вектора.иПри наиболее интуитивно понятной метрикой расстояния является евклидово расстояние:
{% raw %}
{% endraw %}
Однако этот метод измерения не учитывает различий и корреляций между различными измерениями, а разные векторы имеют одинаковый вес при измерении расстояния, что может мешать достоверности результатов.
Расстояние Махаланобиса
Измерьте расстояние между образцом и определенным распределением, сначала стандартизируйте образец и распределение по многомерному стандартному нормальному распределению, а затем измерьте евклидово расстояние.
Мысль
- Поверните переменные в соответствии с основными компонентами, чтобы устранить корреляцию между измерениями.
- Стандартизируйте вектор и распределение, чтобы каждое измерение было таким же, как стандартное нормальное распределение.
получить
- распространяетсяКусокразмерная векторная характеристика, т. е. всегофрагменты данных, каждый фрагмент данных состоит изРазмерное векторное представление:
{% raw %}
{% endraw %}
- Среднее значение
- Ковариационная матрица:
- Чтобы устранить корреляцию между размерами, черезматрицаправильноВыполните замену таблицы координат, сопоставьте данные с новой системой координат и используйтеВыражать:
В этот момент мы ожидаемпод влияниемВ векторном представлении различные измерения не зависят друг от друга, в это времяКовариационная матрица должна быть диагональной матрицей (все элементы, кроме диагональных, равны 0).
- Среднее Y:
- Ковариационная матрица Y:
{% raw %}
{% endraw %}
-
Здесь можно обнаружить, что когдадаКогда матрица, состоящая из собственных векторов ,Должна быть диагональной матрицей, а значением является собственное значение, соответствующее каждому собственному вектору. так какявляется симметричной матрицей, поэтому ее определенно можно получить путем собственного разложения,иявляется ортогональной матрицей.
-
Диагональные элементы значенияТаким образом, дисперсия каждого вектора неотрицательна С этой точки зрения можно показать, что собственные значения ковариационной матрицы неотрицательны.
-
и на самом делеСама ковариационная матрица является положительно полуопределенной., все собственные значения неотрицательны
-
Несвязанные и независимые вопросы:
- Здесь поясняем, что коэффициент корреляции между преобразованными векторами равен 0, то есть вектор не связан
- На самом деле независимость является более сильным ограничением, чем нерелевантность.Нерелевантность часто не может привести к независимости.
- но вПри распределении Гаусса некоррелированные и независимые эквивалентны
Далее нормализуем вектор
-
Когда мы вычитаем среднее значение, вектор становится вектором со средним значением 0, а нормализация расстояния лишь немного не доводит дисперсию до 1.
-
испытавПосле трансформации,Ковариационная матрица стала диагональной матрицей, а диагональные элементы равныДисперсия данных каждого измерения в , тогда нам нужно только позволитьРазделите данные каждого измерения на стандартное отклонение данных измерения.
-
Мы обозначаем декоррелированные, 0-средние и нормализованные данные как:
{% raw %}
\begin{aligned} Z &= \left[ {\begin{array}{*{20}{c}} {\frac{1}{{{\sigma _1}}}}&{}&{}&{}\\ {}&{\frac{1}{{{\sigma _2}}}}&{}&{}\\ {}&{}& \ddots &{}\\ {}&{}&{}&{\frac{1}{{{\sigma _n}}}} \end{array}} \right](Y - {\mu _Y}) \\&= \Sigma _Y^{ - \frac{1}{2}}{Q^T}(X - {\mu _X}) \\ &= ({Q^T}{\Sigma _X}Q)_{}^{ - \frac{1}{2}}{Q^T}(X - {\mu _X}) \end{aligned}{% endraw %}
-
Расстояние Махаланобиса - это вектор с метрической поправкой.Евклидово расстояние до распределительного центра (начала):
{% raw %}
{% endraw %}