Кросс-энтропия, наиболее часто используемая функция потерь в машинном обучении.

машинное обучение

Чтение занимает около 4 минут

Автор rtygbwwwerr huangjx36

Правка zenRRan слегка изменена

Ссылка на сайт

https://blog.csdn.net/rtygbwwwerr/article/details/50778098

https://blog.csdn.net/huangjx36/article/details/78147617

Перекрёстная энтропия – этоMLполечастосуществительные, которые будут упомянуты. В этой статье это понятие будетподробный анализ.

Каков объем информации?

Предполагая, что X является дискретной случайной величиной, набор ее значений равен X, функция распределения вероятностей равна p(x)=Pr(X=x), x∈X, мы определяем количество информации о событии X=x0 как:

I(x0)=−log(p(x0)), то можно понять, что чем больше вероятность события, тем меньше количество информации, которое оно несет, и при p(x0)=1 энтропия будет равна на 0, что означает, что возникновение этого события не приведет к увеличению количества информации. Например, Сяо Мин обычно не любит учиться и часто проваливает экзамен, а Сяо Ван хорошо учится, прилежно учится и часто получает высокие оценки, поэтому мы можем сделать следующие предположения:

Событие A: Сяо Мин сдал экзамен, соответствующая вероятность P(xA)=0,1, а количество информации равно I(xA)=−log(0,1)=3,3219.

Событие B: Сяо Ван сдал экзамен, соответствующая вероятность P(xB)=0,999, а количество информации равно I(xB)=−log(0,999)=0,0014.

Видно, что результаты очень интуитивны: вероятность того, что Сяомин сдаст тест, очень низкая (всего одна сдача из десяти экзаменов), поэтому, если определенный тест пройдет (все скажут: ХХХ сдал!), он будет неизбежно ввести большее количество информации, соответствующее значение I также выше. Для Сяо Вана сдача экзамена является событием с высокой вероятностью.До наступления события B обычно считается, что событие B произойдет почти наверняка.Поэтому, когда определенный экзамен Сяо Ван сдает событие, он не будет вводить слишком много информации Соответствующее значение I также очень низкое.

Что такое энтропия?

Такчто такое энтропияШерстяная ткань? Давайте по-прежнему используем приведенный выше пример для иллюстрации, предполагая, что результат теста Сяомина представляет собой распределение XA 0-1 только с двумя значениями {0: Неудачно, 1: Пройдено}, до объявления определенного результата теста, насколько велик Сяомин. результат теста?неопределенность? Вы обязательно скажете: девять из десяти у вас не получается! Потому что, согласно предварительным данным, вероятность прохождения Сяомина составляет всего 0,1, а вероятность того, что он потерпит неудачу, составляет 90%. Как измерить эту неопределенность? попрошайничествоожидать! Да, мы усредняем (ожидаем) количество дополнительной информации, полученной от всех возможных результатов, и результат не может измерить неопределенность тестовых результатов Сяомина. 

который:

Соответствует энтропии Сяо Вана:

Хотя неопределенность результатов тестов Сяо Мина низкая, в конце концов, он проваливается 9 раз из десяти, но он не так хорош, как Сяо Ван (только один из 1000 экзаменов может провалиться, а результат вполне определен)

Предположим, что Сяодун, ученик с относительно обычными оценками, имеет вероятность сдачи P(xC)=0,5, то есть вероятность сдачи или нет одинакова, и соответствующая энтропия равна:

Его энтропия равна 1, а его неопределенность намного выше, чем у двух предыдущих одноклассников.До объявления результатов трудно точно угадать результаты его теста. 

Можно видеть, что энтропия на самом деле является ожидаемым значением количества информации, которая является детерминированной мерой случайной величины. Чем больше энтропия, тем более неопределенным является значение переменной, и наоборот.

Для случайной величины X ожидаемое количество информации (E[I(x)]) всех ее возможных значений называется энтропией. 

Энтропия X определяется как:

Если p (x) является PDF непрерывной случайной величины, то энтропия определяется как:

Для обеспечения достоверности здесь согласовано, что при p(x)→0 существует p(x)logp(x)→0

Когда X распределен 0-1,Связь между энтропией и вероятностью p следующая:

Можно видеть, что когда вероятность двух значений равна, неопределенность является наибольшей (в настоящее время нет предварительных знаний), и этот вывод можно распространить на множество значений. На рисунке также видно, что при p=0 или 1 энтропия равна 0, то есть X в это время полностью определена. 

Единица измерения энтропии изменяется в зависимости от основания логарифмической операции в формуле.Когда основание равно 2, единицей измерения является «бит» (бит), а когда основание равно e, единицей измерения является «чистая».

Что такое относительная энтропия?

относительная энтропия(относительная энтропия), также известная какKL-расхождение(расхождение Кульбака-Лейблера), KL-расстояние, является мерой расстояния между двумя случайными распределениями. Обозначается как DKL(p||q). Он измеряет недопустимость гипотетического распределения q, когда истинное распределение равно p. 

А для обеспечения преемственности сделаны следующие условные обозначения:

Очевидно, что при p=q относительная энтропия между двумя DKL(p||q)=0

Последняя Hp(q) приведенной выше формулы представляет количество битов, необходимых для кодирования с использованием q при распределении p, а H(p) представляет минимальное количество битов, необходимое для кодирования реального распределения p. Исходя из этого, значение относительной энтропии очень ясно: DKL(p||q) означает, что при условии, что реальное распределение равно p, кодирование с использованием распределения q больше, чем кодирование с использованием реального распределения p (т.е. оптимальное кодирование) Количество выводимых битов.

Что такое кросс-энтропия?

перекрестная энтропияЛегко спутать с относительной энтропией, они тесно связаны, но они разные. Предполагая, что есть два распределения p, q, их кросс-энтропия на заданном наборе выборок определяется как:

Можно видеть, что перекрестная энтропия и относительная энтропия, определенные в предыдущем разделеРазница только в H(p), Когда p известно, H(p) можно рассматривать как константу.В это время перекрестная энтропия и расстояние KL эквивалентны по поведению, и оба отражают подобие распределений p и q. Минимизация кросс-энтропии равна минимизации расстояния KL. Все они достигают минимального значения H(p) при p=q (расстояние KL равно 0 при p=q), поэтому в некоторых инженерных изданиях метод минимизации расстояния KL называется принципом минимальной перекрестной энтропии (MCE) или Метод Минксента. 

В частности, в логистической регрессии

p: истинное выборочное распределение, подчиняющееся распределению 0-1 с параметром p, то есть X ~ B (1, p)

q: оцениваемая модель, подчиняющаяся распределению 0-1 с параметром q, то есть X~B(1,q)

Взаимная энтропия двух:

Взять все обучающие образцызначитпридется:

Этот результат связан соценка максимального правдоподобияРезультаты, полученные методом, согласуются.

TOEFL Слова дня

квант п. квант

поправка н.

собранный прил. спокойный, собранный

остаток н.

подрывать н.

Рекомендуемое чтение:

Замечательный обзор знаний

В ближайшие 3–5 лет в каком направлении будет больше всего дефицитных талантов машинного обучения?

Подробно объясните все тонкости и использование дерева зависимостей.

TreeLSTM Sentiment Classification

Алгоритм BPE алгоритма, чтобы понять за одну минуту

Благосостояние здесь! Мои почти 300G учебных материалов готовы поделиться с вами

[Галантные товары] Нейронная сеть SRU

Подробное объяснение практики машинного перевода seq2seq на основе внимания

[Галантерейные товары] Сеть seq2seq на основе механизма внимания

[Галантные товары] Нейронная сеть ГРУ


Добро пожаловать, чтобы следоватьГлубокое обучение обработке естественного языкаПубличный аккаунт, я будуобновляется ежедневноПонемногу на пути научных исследований и обучения! Даже у самых маленьких людей есть свой бренд! Ждем прогресса вместе с вами!

Длительное нажатие для идентификации QR-кода

Нравится