Это пятый день моего участия в августовском испытании обновлений, подробности о мероприятии:Испытание августовского обновления
9.1 Информационная энтропия
Информационная энтропия — это понятие в теории информации.Прежде чем объяснять информационную энтропию, давайте посмотрим, что такое информация.
В 1948 году Шеннон упомянул в своей знаменитой статье «Математические принципы коммуникации»: «Информация — это то, что используется для устранения случайной неопределенности». Например, мы хотим знать, какой сегодня день недели, без какой-либо информации это может быть любой день с понедельника по воскресенье. Но если кто-то скажет вам, что сегодня выходные, это может быть только суббота или воскресенье, что устраняет неуверенность в том, что это может быть с понедельника по пятницу.
Но приведенные выше понятия слишком расплывчаты, существует ли формула, которая может количественно оценить количество информации о событии? Да, он объем информации:
Эта формула выведена Шенноном на основе свойств следующих трех частей информации:
- Монотонность: событие с более высокой вероятностью возникновения дает меньше информации. Например, «солнце встает на востоке», что является определенным событием с вероятностью 1,, не устраняет никакой неопределенности.
- Неотрицательность: количество информации не может быть отрицательным.
- Аддитивность: если система состоит из нескольких несвязанных подсистем, ее информация должна быть равна сумме информации каждой подсистемы.
мы определяем событияВероятность рождения равна, то ожидание всей информации о событиях в системе:
здесь искусственно определено.
Это информационная энтропия, которая представляет собой ожидание количества информации, необходимой для устранения неопределенности в системе, а именноНеопределенность системы.
На рисунке ниже представлено функциональное изображение информационной энтропии бинарной классификации.Видно, что информационная энтропия наибольшая, когда вероятность наступления двух событий одинакова, и то же верно для n событий.
Следующий контент имеет мало общего с деревьями решений, и вы можете пропустить его, если вам это не интересно.
9.2 KL-дивергенция и кросс-энтропия
Дивергенция KL — это понятие в теории информации, используемое для количественной оценки разницы между двумя распределениями вероятностей P и Q:
Чем больше разница между двумя распределениями, тем больше дивергенция KL.
Обратите внимание, что приведенная выше формула относится к использованию P в качестве эталона, чтобы увидеть, насколько велика разница между Q и P, обычно. Доказано неравенством Дженсена, знак равенства имеет место, когда P=Q.
Раскрываем скобки и видим:
Вторая половина этой формулыПредставляет информационную энтропию После определения системы ее информационная энтропия остается неизменной. передняя частьЭто перекрестная энтропия Чем меньше перекрестная энтропия, тем меньше расхождение KL и тем меньше разница между двумя распределениями. Вот почему перекрестную энтропию можно использовать в качестве функции потерь для глубокого обучения. Вычисление с отрицательным знаком здесь связано с тем, что логарифм вероятности является неположительным числом, а отрицательный знак эквивалентен вычитанию двух неотрицательных чисел, что легко понять.