концепция
учитыватьнекоторое неизвестное распределение p(x), предполагаяПриблизительное распределение q(x)Моделируйте это. Если мы используем q(x) для построения схемы кодирования для передачи значения x получателю, то, поскольку мы используем q(x) вместо истинного распределения p(x), средняя длина кода будет короче, чем при использовании истинного распределения. распределение p (x) Количество информации, добавляемой при кодировании (единица измерения — nat):
Это называется разницей между распределением p(x) и распределением q(x)Относительная энтропия или расхождение KL (расхождение Кульбака-Лейблера).
То есть, когда мы знаем истинное распределение вероятностей, можно задать наиболее эффективное кодирование. Если мы используем распределение вероятностей, отличное от истинного распределения, то мы должны потерять эффективность кодирования, а среднее количество дополнительной информации, добавляемой при передаче, по крайней мере равно расхождению KL между двумя распределениями.
Уведомление,это не пара,Сейчас.
Почему расхождение KL больше или равно 0
Теперь нам нужно доказать, что дивергенция KL удовлетворяет условию, а знак равенства имеет место тогда и только тогда, когда p(x) = q(x).
Для непрерывных переменных неравенство Дженсена имеет вид:
Заметим, что -ln x строго выпукло и.
Применяя неравенство Йенсена в виде (2) к дивергенции Кульбака-Лейблера, заданной в (1), можно непосредственно получить
Знак равенства имеет место, только если q(x) = p(x) выполняется для всех x,
Таким образом, мы можем думать о KL-дивергенции как о разнице между двумя распределениями p(x) и q(x)мера непохожести.
Минимизация расхождения Кульбака-Лейблера эквивалентна максимизации функции правдоподобия
Предположим, мы хотим смоделировать неизвестное распределение p(x), давайте попробуем некоторые параметрические распределениядля аппроксимации p(x).
по регулируемым параметрам
управление (например, многомерное распределение Гаусса).
Минимизируя p(x) имежду примерно
Расхождение Кульбака-Лейблера можно определить
.
Но поскольку вы не знаете p(x), вы не можете сделать это напрямую..
Если наблюдался конечный набор тренировочных точек, следующих за распределением p ( x ),в
, то математическое ожидание относительно p(x) можно получить по конечной сумме этих точек по формуле
приблизить, то есть:
Второй член в правой части уравнения (4) такой же, какне имеет значения, первый член - это распределение, оцененное с использованием обучающей выборки
вниз
Отрицательная логарифмическая функция правдоподобия .
Следовательно, минимизация расхождения KL эквивалентна максимизации функции правдоподобия.
Использованная литература:
[1] PRML