Расстояние Махаланобиса

алгоритм

«Это второй день моего участия в первом испытании обновлений 2022 года. Подробную информацию о мероприятии см.:Вызов первого обновления 2022 г.".

Расстояние Махаланобиса было предложено индийским статистиком П. К. Махаланобисом и представляет собой расстояние между точкой и распределением. Это эффективный метод для вычисления сходства между двумя наборами неизвестных выборок. иЕвклидово расстояниеРазница в том, что в нем рассматривается связь между различными функциями, и в этой статье представлено содержание, связанное с расстоянием Махаланобиса.

Недостатки евклидова расстояния

Метрики расстояний широко используются в различных дисциплинах, когда данные представляются в виде вектора.x=(x1,x2,,xn)T\overrightarrow{\mathbf{x} }=\left(x_{1}, x_{2}, \cdots, x_{n}\right)^{T}иy=(y1,y2,,yn)T\overrightarrow{\mathbf{y}}=\left(y_{1}, y_{2}, \cdots, y_{n}\right)^{T}При наиболее интуитивно понятной метрикой расстояния является евклидово расстояние:

{% raw %}

d(x,y):=(x1y1)2+(x2y2)2++(xnyn)2=i=1n(xiyi)2d(x, y):=\sqrt{\left(x_{1}-y_{1}\right)^{2}+\left(x_{2}-y_{2}\right)^{2}+\cdots+\left(x_{n}-y_{n}\right)^{2}}=\sqrt{\sum_{i=1}^{n}\left(x_{i}-y_{i}\right)^{2}}

{% endraw %}

Однако этот метод измерения не учитывает различий и корреляций между различными измерениями, а разные векторы имеют одинаковый вес при измерении расстояния, что может мешать достоверности результатов.

Расстояние Махаланобиса

Измерьте расстояние между образцом и определенным распределением, сначала стандартизируйте образец и распределение по многомерному стандартному нормальному распределению, а затем измерьте евклидово расстояние.

Мысль

  • Поверните переменные в соответствии с основными компонентами, чтобы устранить корреляцию между измерениями.
  • Стандартизируйте вектор и распределение, чтобы каждое измерение было таким же, как стандартное нормальное распределение.

получить

  • распространяетсяnnКусокmmразмерная векторная характеристика, т. е. всегоnnфрагменты данных, каждый фрагмент данных состоит изmmРазмерное векторное представление:

{% raw %}

X = \left[ {\begin{array}{*{20}{c}} {{x_{11}}}&{{x_{12}}}& \cdots &{{x_{1n}}}\\ {{x_{21}}}&{{x_{22}}}&{}&{{x_{2n}}}\\ \vdots &{}& \ddots & \vdots \\ {{x_{m1}}}&{{x_{m2}}}& \cdots &{{x_{mn}}} \end{array}} \right]

{% endraw %}

  • XXСреднее значениеμX{\mu _X}
  • XXКовариационная матрица:
X=1n(XμX)(XμX)T\sum\nolimits_X = \frac{1}{n}(X - {\mu _X}){(X - {\mu _X})^T}
  • Чтобы устранить корреляцию между размерами, черезm×mm \times mматрицаQTQ^TправильноXXВыполните замену таблицы координат, сопоставьте данные с новой системой координат и используйтеYYВыражать:
Y=QTXY=Q^TX

В этот момент мы ожидаемQTQ^Tпод влияниемYYВ векторном представлении различные измерения не зависят друг от друга, в это времяYYКовариационная матрица должна быть диагональной матрицей (все элементы, кроме диагональных, равны 0).

  • Среднее Y:uY=QTuXu_{Y}=Q^{T} u_{X}
  • Ковариационная матрица Y:

{% raw %}

ΣY=1n[YuY][yuY]T=1n[QT(Xux)][QT(XuX)]T=QT1n(XuX)(XuX)TQ=QTΣXQ\begin{aligned} \Sigma_{Y} &=\frac{1}{n}\left[Y-u_{Y}\right]\left[y-u_{Y}\right]^{T} \\ &=\frac{1}{n}\left[Q^{T}\left(X-u_{x}\right)\right]\left[Q^{T}\left(X-u_{X}\right)\right]^{T} \\ &=Q^{T} \frac{1}{n}\left(X-u_{X}\right)\left(X-u_{X}\right)^{T} Q \\ &=Q^{T} \Sigma_{X} Q \end{aligned}

{% endraw %}

  • Здесь можно обнаружить, что когдаQQ даΣX\Sigma_{X}Когда матрица, состоящая из собственных векторов ,ΣY\Sigma_{Y}Должна быть диагональной матрицей, а значением является собственное значение, соответствующее каждому собственному вектору. так какΣX\Sigma_{X}является симметричной матрицей, поэтому ее определенно можно получить путем собственного разложенияQQQQявляется ортогональной матрицей.

  • ΣY\Sigma_{Y}Диагональные элементы значенияYYТаким образом, дисперсия каждого вектора неотрицательна С этой точки зрения можно показать, что собственные значения ковариационной матрицы неотрицательны.

  • и на самом делеСама ковариационная матрица является положительно полуопределенной., все собственные значения неотрицательны

  • Несвязанные и независимые вопросы:

Далее нормализуем вектор

  • Когда мы вычитаем среднее значение, вектор становится вектором со средним значением 0, а нормализация расстояния лишь немного не доводит дисперсию до 1.

  • испытавY=QTXY=Q^TXПосле трансформации,YYКовариационная матрица стала диагональной матрицей, а диагональные элементы равныYYДисперсия данных каждого измерения в , тогда нам нужно только позволитьYYРазделите данные каждого измерения на стандартное отклонение данных измерения.

  • Мы обозначаем декоррелированные, 0-средние и нормализованные данные какZZ:

    {% raw %}

    \begin{aligned} Z &= \left[ {\begin{array}{*{20}{c}} {\frac{1}{{{\sigma _1}}}}&{}&{}&{}\\ {}&{\frac{1}{{{\sigma _2}}}}&{}&{}\\ {}&{}& \ddots &{}\\ {}&{}&{}&{\frac{1}{{{\sigma _n}}}} \end{array}} \right](Y - {\mu _Y}) \\&= \Sigma _Y^{ - \frac{1}{2}}{Q^T}(X - {\mu _X}) \\ &= ({Q^T}{\Sigma _X}Q)_{}^{ - \frac{1}{2}}{Q^T}(X - {\mu _X}) \end{aligned}

    {% endraw %}

  • Расстояние Махаланобиса - это вектор с метрической поправкой.ZZЕвклидово расстояние до распределительного центра (начала):

    {% raw %}

DM(X)=ZTZ=(XuX)TQ(QTΣXQ)12(QTΣXQ)12QT(XuX)=(XuX)TQ(QTΣXQ)1QT(XuX)=(XuX)TQQ1ΣX1QQT(XuX)=(XuX)TΣX1(XuX)\begin{array}{l} {D_M}(X) & = \sqrt {{Z^T}Z} \\&= \sqrt {{{\left( {X - {u_X}} \right)}^T}Q{{\left( {{Q^T}{\Sigma _X}Q} \right)}^{ - \frac{1}{2}}}{{\left( {{Q^T}{\Sigma _X}Q} \right)}^{ - \frac{1}{2}}}{Q^T}\left( {X - {u_X}} \right)} \\ &= \sqrt {{{\left( {X - {u_X}} \right)}^T}Q{{\left( {{Q^T}{\Sigma _X}Q} \right)}^{ - 1}}{Q^T}\left( {X - {u_X}} \right)} \\ &= \sqrt {{{\left( {X - {u_X}} \right)}^T}Q{Q^{ - 1}}\Sigma _X^{ - 1}Q{Q^T}\left( {X - {u_X}} \right)} \\ &= \sqrt {{{\left( {X - {u_X}} \right)}^T}\Sigma _X^{-1}\left( {X - {u_X}} \right)} \\ \end{array}

{% endraw %}

использованная литература