Экспоненциальное семейное распределение

машинное обучение

Это 21-й день моего участия в августовском испытании обновлений.Подробности о событии:Испытание августовского обновления

Экспоненциальное семейное распределение

определение

Экспоненциальные семейства распределений. Экспоненциальное семейное распределение включает ряд распределений, таких как распределение Гаусса, распределение Бернулли, биномиальное распределение, распределение Пуассона, бета-распределение и гамма-распределение.

Экспоненциальные семейные распределения относятся к наборам параметров вероятностных распределений следующего конкретного вида:

pX(xθ)=h(x)exp[η(θ)T(x)A(θ)]p_X(x\mid \theta)=h(x)exp[\eta(\theta)\cdot T(x)-A(\theta)]

в,T(x),h(x),η(θ),A(θ)Т(х), ч(х), \эта(\тета), А(\тета)— известная функция, то есть только параметрыθ\thetaнеизвестный.θ\thetaпараметры, называемые семьями.A(θ)A(\theta)Также называется функцией разделения журнала.

Существуют и другие эквивалентные формы:

pX(xθ)=h(x)g(θ)exp[η(θ)T(x)]p_X(x\mid \theta)=h(x)g(\theta)exp[\eta(\theta)\cdot T(x)]

или:

pX(xθ)=exp[η(θ)T(x)A(θ)+B(x)]p_X(x\mid \theta)=exp[\eta(\theta)\cdot T(x)-A(\theta)+B(x)]

или

pX(xθ)=h(x)exp[η(θ)T(x)]exp[A(θ)]=1exp[A(θ)]h(x)exp[η(θ)T(x)]\begin{aligned} p_X(x\mid \theta)&=h(x)exp[\eta(\theta)\cdot T(x)] \cdot exp[-A(\theta)]\\ &=\dfrac{1}{exp[A(\theta)]}h(x)exp[\eta(\theta)\cdot T(x)] \end{aligned}

функция распределения

p(xθ)=1zp^(xθ)zявляется нормировочным фактором и не имеет ничего общего с xp(x|\theta)=\dfrac{1}{z}\hat{p}(x|\theta)\qquad z\text{является коэффициентом нормализации, который не имеет ничего общего с x}

Статистическая сумма — это нормализованная функция, цель которой — сделать интегральное значение функции равным 1.

p(xθ)dx=1zp^(xθ)dx=1z=p^(xθ)dx\int p(x|\theta)dx=\int \dfrac{1}{z}\hat{p}(x|\theta)dx=1 \\ z=\int\hat{p}(x|\theta)dx

A(θ)A(\theta)На самом деле получилось так:

p(xθ)=1exp[A(θ)]h(x)exp[η(θ)T(x)]p(xθ)dx=1exp[A(θ)]h(x)exp[η(θ)T(x)]dx=1p(x|\theta)=\dfrac{1}{exp[A(\theta)]}h(x)exp[\eta(\theta)\cdot T(x)] \\ \int p(x|\theta)dx=\int\dfrac{1}{exp[A(\theta)]}h(x)exp[\eta(\theta)\cdot T(x)]dx=1

так,

A(θ)=logh(x)exp[η(θ)T(x)]dxA(\theta)=\log\int h(x)exp[\eta(\theta)\cdot T(x)]dx

достаточная статистика

этоT(x)T(x), статистика является функцией выборки, и достаточно указать, что статистика содержит общие характеристики выборки. При такой достаточной статистике выборку можно игнорировать, что позволяет сэкономить место. Например, достаточной статистикой распределения Гаусса являются среднее значение и дисперсия, так что четкое распределение может быть получено путем вычисления среднего значения и дисперсии выборки.

сопряжение

Экспоненциальные семейные распределения часто сопряжены. Сопряженный априор делает априор и апостериор в одной и той же форме, что легко вычислить.

Что такое сопряжение?

Сначала рассмотрим формулу Байеса.

p(zx)=p(xz)p(z)zp(xz)p(z)dzp(z|x)=\dfrac{p(x|z)p(z)}{\int_zp (x|z)p(z)dz}

Заднийp(zx)p(z|x), так как интеграл от знаменателя найти труднее, то и напрямую найти апостериор сложнее. Сопряжение означает, что при определенной вероятностиp(xz)p(x|z)вниз, назадp(zx)p(z|x)и априориp(z)p(z)будет формировать такое же распределение. Тогда нет необходимости вычислять комплексный интеграл в качестве знаменателя.

Например, если вероятностьp(xz)p(x|z)является биномиальным распределением,p(z)p(z)является бета-распределением, то апостериорное распределение такжеp(zx)p(z|x)Также бета-распределение. которыйp(zx)p(xz)p(z)p(z|x) \propto p(x|z)p(z).

максимальная энтропия

Экспоненциальные семейные распределения удовлетворяют принципу максимальной энтропии.

Что такое максимальная энтропия?

Во-первых, определение информационной энтропии:

H(p)=p(x)logp(x)dx(непрерывный)H(p)=n=1Np(x)logp(x)dx(дискретный)H (p) = \ int-p (x) \ log p (x) dx \ qquad (\ text {continuous}) \\ H (p) = - \ sum_ {n = 1} ^ N p (x) \ журнал p(x)dx\qquad(\text{дискретный})

Предполагая, что данные дискретны, для дискретной случайной величины x имеемnnпризнаков, вероятность которыхpnp_n, теперь требуется максимальная информационная энтропия, то максимальную энтропию можно выразить в виде задачи оптимизации с ограничениями:

max{H(p)}=min{n=1Npnlogpn}s.t.n=1Npn=1\max\{H(p)\}=\min\{\sum_{n=1}^N p_n\log p_n\}\quad s.t. \sum_{n=1}^N p_n=1

Что касается этой знакомой задачи оптимизации с ограничениями, мы можем использовать метод множителей Лагранжа для ее решения,

L(p,λ)=n=1Npnlogpn+λ(1n=1Npn)L(p,\lambda)=\sum_{n=1}^N p_n\log p_n+\lambda(1-\sum_{n=1}^N p_n)

пожалуйста, руководство,

Lpn=logpn+1λ=0pn=exp(λ1)\dfrac{\partial L}{\partial p_n}=\log p_n+1-\lambda=0 \\ \Longrightarrow p_n=exp(\lambda-1)

λ\lambdaявляется константой, поэтомуp^1=p^2=...=p^n=1N\hat{p}_1=\hat{p}_2=...=\hat{p}_n=\dfrac{1}{N}

Можно обнаружить, что в дискретных условияхpn p_nЭнтропия максимальна, когда она подчиняется равномерному распределению. Это,В дискретных условиях максимальное распределение энтропии случайной величины при неинформативном априорном анализе является равномерным распределением.

Затем, когда у нас есть частичный набор данных, мы можем получить некоторые предварительные знания из набора данных, такие как эмпирическое распределение.p^(x)=count(x)N\hat{p}(x)=\frac{count(x)}{N}, эмпирическое ожидание может быть дополнительно рассчитано:

Ep^[f(x)]=ΔE_{\hat{p}}[f(x)]=\Delta

Затем мы можем добавить эти предварительные знания к ограничениям. Итак, максимальная энтропия

max{H(p)}=min{xp(x)logp(x)}s.t.n=1Npn=1,Ep^[f(x)]=Δ\max\{H(p)\}=\min\{\sum_x p(x)\log p(x)\}\quad s.t. \sum_{n=1}^N p_n=1,E_{\hat{p}}[f(x)]=\Delta

Или используйте метод множителей Лагранжа,

L(p,λ0,λ)=n=1Np(xn)logp(xn)+λ0(1n=1Npn)+λT(ΔEp^[f(x)])L(p,\lambda_0,\lambda)=\sum_{n=1}^N p(x_n)\log p(x_n)+\lambda_0(1-\sum_{n=1}^N p_n)+\lambda^T(\Delta-E_{\hat{p}}[f(x)])

просить руководства,

p(x)L=n=1N(logp(x)+1)n=1Nλ0n=1NλTf(x)=0p(x)=exp{λ01+λTf(x)}\begin{aligned} \dfrac{\partial }{\partial p(x)}L&=\sum_{n=1}^N(\log p(x)+1)-\sum_{n=1}^N\lambda_0-\sum_{n=1}^N\lambda^Tf(x)=0\\ &\Longrightarrow p(x)=exp\{\lambda_0-1+\lambda^Tf(x)\} \end{aligned}

Это экспоненциальное семейное распределение. Можно сделать вывод, что,При условии выполнения установленных фактов максимальное распределение энтропии, соответствующее случайной величине, является экспоненциальным семейным распределением.

Несколько экспоненциальных семейных распределений

Несколько общих экспоненциальных семейных распределений представлены ниже.

Гауссово распределение

Если случайная величинаXXподчиняться среднемуμ\mu, дисперсияо\sigmaГауссово распределение , обозначаемое как:XN(μ,о2)X\sim N(\mu,\sigma^2)

ТотФункция плотности вероятностиза:

f(xμ,о)=1о2число Пиe(xμ)22о2f(x\mid \mu,\sigma)=\dfrac{1}{\sigma \sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}

написано какЭкспоненциальная форма:

f(xμ,о)=12число Пиexp{μо2x12о2x212о2μ2logо22}f(x\mid \mu,\sigma)=\dfrac{1}{\sqrt{2\pi}}exp\{\dfrac{\mu}{\sigma^2}x-\dfrac{1}{2\sigma^2}x^2-\dfrac{1}{2\sigma^2}\mu^2-\dfrac{log\sigma^2}{2}\}

Когда переменные следуют распределению Гаусса, независимость должна быть некоррелированной, а некоррелированная должна быть независимой.

Корреляция отражает то, что на самом деле является линейной зависимостью, тогда как независимость отражает более общую линейную независимость.

Распределение Бернулли

написано какЭкспоненциальная форма:

f(xчисло Пи)=число Пиx(1число Пи)1x=exp{xlog(число Пи1число Пи)+log(1число Пи)}f(x\mid \pi)=\pi^x(1-\pi)^{1-x}=exp\{xlog(\dfrac{\pi}{1-\pi})+log(1-\pi) \}

Пуассоновские и экспоненциальные распределения

распределение Пуассонавыражение:

  • XP(λ),λ=XX \sim P(\lambda),\lambda=\overline X
  • P(X=k)=λkk!eλP(X=k)=\dfrac{\lambda ^k}{k!}e^{-\lambda}
  • E(X)=λE(X)=\lambda

написано какЭкспоненциальная форма:

p(xλ)=1x!exp{xlogλλ}p(x\mid \lambda)=\dfrac{1}{x!}exp\{xlog\lambda-\lambda \}

процесс Пуассона: время введения, t

  • формула:P(X=k,t)=(λt)kk!eλtP(X=k,t)=\dfrac{(\lambda t)^k}{k!}e^{-\lambda t}

Экспоненциальное выражение распределения:

  • YExp(λ)Y\sim Exp(\lambda)
  • E(Y)=1λE(Y)=\dfrac{1}{\lambda}

По функции распределения:F(y)=P(Yy)={1eλyy00y<0F(y)=P(Y\le y)=\begin{cases}1-e^{-\lambda y}&y\geqslant 0\\0&y<0\end{cases} ,

Вывод дает функцию плотности вероятности, которая представляет собой экспоненциальное распределение:

p(y)={λeλyy00y<0p(y)=\begin{cases}\lambda e^{-\lambda y}&y\geqslant 0\\0&y<0\end{cases}

Записано в экспоненциальной форме:

p(yλ)=λeλy=exp{λy+log(λ)}p(y\mid \lambda)=\lambda e^{-\lambda y}=exp\{-\lambda y+log(\lambda)\}

Экспоненциальное распределение так же не имеет памяти, как и геометрическое.

Гамма-распределение

написано какЭкспоненциальная форма:

f(xk,θ)=1Γ(k)θkxk1exθ=exp{(k1)log(x)xθklog(θ)logΓ(k)}f(x\mid k,\theta)=\dfrac{1}{\Gamma(k)\theta^k}x^{k-1}e^{\frac{-x}{\theta}}=exp\{(k-1)log(x)-\dfrac{x}{\theta}-klog(\theta)-log\Gamma(k) \}

Ссылаться на

  1. Курсы серии «Машинное обучение по созданию доски»
  2. Экспоненциальное семейное распределение | Серия производных машинного обучения (9) - Ищут программиста