KL расхождение понимание

искусственный интеллект

концепция

учитыватьнекоторое неизвестное распределение p(x), предполагаяПриблизительное распределение q(x)Моделируйте это. Если мы используем q(x) для построения схемы кодирования для передачи значения x получателю, то, поскольку мы используем q(x) вместо истинного распределения p(x), средняя длина кода будет короче, чем при использовании истинного распределения. распределение p (x) Количество информации, добавляемой при кодировании (единица измерения — nat):

\begin{aligned} KL (p || q) &= - \int p(x) \ln q(x) d x - (-\int p(x) \ln p(x) dx) \\ &= - \int p(x) \ln [\frac{q(x)}{p(x)}] dx \end{aligned} \quad\quad\quad (1)

Это называется разницей между распределением p(x) и распределением q(x)Относительная энтропия или расхождение KL (расхождение Кульбака-Лейблера).

То есть, когда мы знаем истинное распределение вероятностей, можно задать наиболее эффективное кодирование. Если мы используем распределение вероятностей, отличное от истинного распределения, то мы должны потерять эффективность кодирования, а среднее количество дополнительной информации, добавляемой при передаче, по крайней мере равно расхождению KL между двумя распределениями.

Уведомление,это не пара,СейчасKL (p || q) \neq KL (q || p).

Почему расхождение KL больше или равно 0

Теперь нам нужно доказать, что дивергенция KL удовлетворяет условиюKL (p || q) \geq 0, а знак равенства имеет место тогда и только тогда, когда p(x) = q(x).

Для непрерывных переменных неравенство Дженсена имеет вид:

f(\int xp(x)dx) \leq \int f(x)p(x)dx\quad\quad\quad (2)

Заметим, что -ln x строго выпукло и\displaystyle \int q(x) dx = 1.

Применяя неравенство Йенсена в виде (2) к дивергенции Кульбака-Лейблера, заданной в (1), можно непосредственно получить

KL (p || q) = - \int p(x) \ln [\frac{q(x)}{p(x)}] d x \geq -\int \ln q(x) dx = 0\quad\quad\quad (3)

Знак равенства имеет место, только если q(x) = p(x) выполняется для всех x,

Таким образом, мы можем думать о KL-дивергенции как о разнице между двумя распределениями p(x) и q(x)мера непохожести.

Минимизация расхождения Кульбака-Лейблера эквивалентна максимизации функции правдоподобия

Предположим, мы хотим смоделировать неизвестное распределение p(x), давайте попробуем некоторые параметрические распределенияq(x|\theta)для аппроксимации p(x).q(x|\theta)по регулируемым параметрам\thetaуправление (например, многомерное распределение Гаусса).

Минимизируя p(x) иq(x|\theta)между примерно\thetaРасхождение Кульбака-Лейблера можно определить\theta.

Но поскольку вы не знаете p(x), вы не можете сделать это напрямую..

Если наблюдался конечный набор тренировочных точек, следующих за распределением p ( x )\{x_n\}n = 1,\dots, N, то математическое ожидание относительно p(x) можно получить по конечной сумме этих точек по формуле\displaystyle E(f) \simeq \frac{1}{N}  \sum_{N=1}^N f(x_n)приблизить, то есть:

KL (p || q) \simeq \frac{1}{N}\sum_{n=1}^N[-\ln q( x_n \mid  \theta)+ \ln p(x_n )]\quad\quad\quad (4)

Второй член в правой части уравнения (4) такой же, как\thetaне имеет значения, первый член - это распределение, оцененное с использованием обучающей выборкиq(x | \theta)вниз\thetaОтрицательная логарифмическая функция правдоподобия .

Следовательно, минимизация расхождения KL эквивалентна максимизации функции правдоподобия.

Использованная литература:

[1] PRML