Понять происхождение многомерного распределения Гаусса

машинное обучение
Понять происхождение многомерного распределения Гаусса

Многомерное распределение Гаусса имеет вид:

\begin{aligned} \Bbb {N}(\mathbf x|\mathbf{\mu},\mathbf \Sigma)  &=\frac{1}{(2\pi)^{\frac{d}{2}}\left|\Sigma\right|^\frac{1}{2}} \exp\{{-\frac{1}{2}(\mathbf x-\mu)^T\Sigma^{-1}(\mathbf x-\mu)} \} \end{aligned} \quad\quad\quad(1)

в,\mu- D-мерный средний вектор,\SigmaдаD \times Dковариационная матрица,Элемент в i-й строке и j-м столбце представляет собой ковариацию i-й переменной и j-й переменной,|\Sigma|Представляет определитель ковариационной матрицы.

График двумерного распределения Гаусса показан ниже (из Википедии), и каждое его измерение является распределением Гаусса.:

В этой статье в основном говорится о происхождении формулы (1).

Предпосылки: матрица Якоби и определитель Якоби

Предполагатьf : \mathbb {R}_n \to \mathbb {R}_mэто функция, вход которой является вектором\mathbf x \in \mathbb {R}_n, выход представляет собой вектор\mathbf y=f(\mathbf x) \in \mathbb {R}_m:

\begin{cases} y_1=f_1(x_1,\dots,x_n) \\ y_2=f_2(x_1,\dots,x_n) \\  \dots \\ y_m=f_n(x_1,\dots,x_n)  \end{cases}

ТакМатрица Якобипредставляет собой матрицу размера m × n:

{\displaystyle \mathbf {J} ={\begin{bmatrix}{\dfrac {\partial \mathbf {f} }{\partial x_{1}}}&\cdots &{\dfrac {\partial \mathbf {f} }{\partial x_{n}}}\end{bmatrix}}={\begin{bmatrix}{\dfrac {\partial f_{1}}{\partial x_{1}}}&\cdots &{\dfrac {\partial f_{1}}{\partial x_{n}}}\\\vdots &\ddots &\vdots \\{\dfrac {\partial f_{m}}{\partial x_{1}}}&\cdots &{\dfrac {\partial f_{m}}{\partial x_{n}}}\end{bmatrix}}}

Поскольку матрица описывает движение-преобразование в векторном пространстве, матрица Якоби рассматривается какэто точка(x_1,\dots,x_n)преобразовать в точку(y_1,\dots,y_m), или преобразование n-мерного евклидова пространства в m-мерное евклидово пространство.

Если m = n, матрицу Якоби можно определить\mathbf {J}определитель , то естьОпределитель Якоби.

В преобразовании исчисления, то есть задано отношение n-мерного объема от x к y,

\rm dy_1...dy_n=|J| \,\, dx_1...dx_n

Геометрический смысл двумерной матрицы Якоби

В двумерном случае (с интуитивно понятным графиком) якобиан представляет собой отношение элемента площади на плоскости xy к элементу площади на плоскости uv.

Предполагатьx=x(u,v),\quad y=y(u,v)

Якобиан это:

\mathbf J=|\frac{\partial (x,y)}{\partial (u,v)}| =         \begin{vmatrix}         x_u & x_v  \\         y_u & y_v  \\         \end{vmatrix}

Jacobi变换

Как показано на рисунке: dA представляет площадь параллелограмма, образованного dx и dy.Если du ​​и dv достаточно близки к 0, то dA:

dA=dxdy=|\frac{\partial (x,y)}{\partial (u,v)}|du dv

Двойной интегральный обмен:

\iint_D f(x,y) dxdy = \iint_{D'}f[x(u,v),y(u,v)] |\frac{\partial(x,y)}{\partial(u,v)}|dudv

И так далее для n-мерного случая.

Многомерное распределение Гаусса

Сначала подумайОдномерное стандартное нормальное распределение, функция плотности вероятности:

f(x)=\frac{1}{\sqrt{2\pi}}\exp(-\frac{x^2}{2})\quad\quad\quad(2)

Затем рассмотрим n-мерное независимое стандартное распределение Гаусса, которое равно nнезависимыйСовместное распределение одномерной стандартной нормально распределенной случайной величины:

p(x_1,\dots,x_n) = p(x_1)\dots p(x_n) = (2\pi)^{-\frac{n}{2}} \exp \left( -\frac{{x_1}^2+ \dots +{x_n}^2}{2} \right)\quad\quad\quad(3)

Для удобства выражения его представим в виде вектора, пусть\mathbf{x} = (x_1\,\dots \,x_n)^T, формула (3) записывается в виде:

f(\mathbf{x}) = (2\pi)^{-\frac{n}{2}} \exp \left( -\frac{1}{2}\mathbf{x}^T\mathbf{x} \right)\quad\quad\quad(4)

В общем, пусть\mathbf{y}Зависит от\mathbf{x}Линейное преобразование , дает:

\mathbf{y} =  A\mathbf{x} + \mu \quad\quad\quad(5)

где Аn \times nизневырожденная матрица,\muявляется n-мерным вектором

можно поставить\mathbf{x}использовать\mathbf{y}Выражать:

\mathbf{x} = A^{-1} (\mathbf{y} - \mu)\quad\quad\quad(6)

Примечание,Уравнение (6) Определитель Якоби линейного преобразованияда|\mathbf A^{-1}|,следовательно:

\rm d \mathbf x = |A^{-1}| d \mathbf y\quad\quad\quad(7)

Предполагать\Sigma^{-1}=(A^{-1})^T A^{-1},но\displaystyle |A|=|\Sigma|^{\frac{1}{2}}, определяемый совместной плотностью распределения вероятностей, имеет:

\begin{aligned} 1= \int \dots \int f(\mathbf{x}) d \mathbf x &= \int \dots \int f(A^{-1} (\mathbf{y} - \mu))  |\mathbf A^{-1}| d \mathbf y \\ &= \int \dots \int \frac{1}{\sqrt {2 \pi}^n |A|} \exp \left[ -\frac{1}{2} (\mathbf{y} - \mu) ^T (A^{-1})^T A^{-1} (\mathbf{y} - \mu) \right] d \mathbf y \\ &= \int \dots \int \frac{1}{\sqrt {2 \pi}^n |\Sigma|^{\frac{1}{2}}} \exp \left[ -\frac{1}{2} (\mathbf{y} - \mu) ^T \Sigma^{-1} (\mathbf{y} - \mu) \right] d\mathbf y  \end{aligned} \quad\quad(10)

Следовательно, вектор\mathbf yСовместная функция плотности вероятности вероятности:

f(\mathbf y)=\frac{1}{(2\pi)^{\frac{n}{2}} |\Sigma|^{\frac{1}{2}}} \exp \left[ -\frac{1}{2} (\mathbf{y} - \mu) ^T \Sigma^{-1} (\mathbf{y} - \mu) \right] d\mathbf y  \quad\quad(11)

Тогда получаем формулу (1)

Можно видеть, что многомерное распределение Гаусса является обобщением одномерного распределения Гаусса на несколько измерений.