Хаотическая энтропия интервью с машинным обучением (1)

машинное обучение искусственный интеллект интервью Байду

0x00 Предисловие

Послушайте вопрос: что такое энтропия? Что такое кросс-энтропия? Что такое совместная энтропия? Что такое условная энтропия? Что такое относительная энтропия? Каковы их связи и различия?

Если вам сложно ответить на эти вопросы и кажется, что вы понимаете концепции, но не так хорошо, то эта статья для вас.

0x01 начинается со случайных переменных

Предположим, есть монета, подбросьте ее, и после того, как она упадет, лицевой стороной вверх будет y.

Здесь y представляет собой представление неизвестной величины. Но его значение неопределенно, и оно может принимать как орел, так и решку.

Есть много подобных неопределенных переменных, например, установка роста человека как z, z также содержит неопределенность, потому что разные люди имеют разный рост.

Такие переменные, содержащие неопределенность, называютсяСлучайные переменные. Статистика является инструментом для изучения таких переменных неопределенности.

Одним из самых мощных инструментов для описания случайных величин является егоРаспределения вероятностей. О том, что такое распределение вероятностей, я не буду здесь много говорить, вы можете воспользоваться энциклопедией Baidu.

С распределением вероятностей мы можем сказать, что у нас есть полное представление о случайной величине, потому что мы можем знать, какие значения она может принимать и какова вероятность определенного значения.

Вышеизложенное является простым обзором базовых знаний.Давайте начнем входить в основную тему.

0x02 Что такое энтропия?

Выше мы знаем, что распределение вероятностей является характеристикой случайных величин, разные случайные величины имеют одинаковые или разные распределения вероятностей,энтропия, является характеристикой различных распределений вероятностей!

Почему нам все еще нужно характеризовать различные распределения вероятностей? По сути, это описание степени неопределенности и использование ее для сравнения различных распределений вероятностей.

Разрешите дать каштан.

Предположим, я говорю вам, что у меня есть две монеты, одна с вероятностью 0,5 выпадения решки, а другая с вероятностью 0,8. Теперь предположим, что две монеты подбрасываются один раз и после одного падения выпадают грани x и y соответственно. На этом этапе мы можем легко определить распределение вероятностей случайных величин x, y и, таким образом, получить точное представление о двух случайных величинах.

Но мы должны спросить, какая из этих двух случайных величин более случайна? Или какая случайная величина содержит больше неопределенности?

Интуитивно мы можем почувствовать, что неопределенность распределения вероятностей с вероятностью хедз-ап 0,8 меньше, чем неопределенность вероятности хедз-ап 0,5.

Если подумать, почему у нас такая интуиция?

Потому что мы думаем с точки зрения «использования» вероятностных распределений. То есть, если мы знаем, что монета подбрасывается с вероятностью 0,8 орлом, то легче угадать, какая сторона монеты подброшена правильно, чем если бы мы знали, что она имеет вероятность 0,5. Другими словами, распределение вероятностей 0,8 более информативно для нас, чем распределение вероятностей 0,5.

Теперь, когда у нас есть перцептивное понимание неопределенности в распределениях вероятностей, теперь необходим количественный индикатор для измерения этой неопределенности. Как вы, должно быть, догадались, эта метрика — энтропия.

0x03 Математическое выражение энтропии

Как должна выглядеть энтропия, чтобы выразить неопределенность в распределении вероятностей?

Чтобы решить эту проблему, давайте рассмотрим определенное значение в распределении вероятностей, Взяв в качестве примера подбрасывание монеты, давайте посмотрим на значение орла. Видно, что чем больше вероятность взятия головы, тем меньше неопределенность.Чем выше вероятность, тем ниже неопределенность!Пожалуйста, прочитайте это предложение три раза в уме. Выражение, которое может выражать большую вероятность и меньшую неопределенность:

−лог(р)

Для того, чтобы дать каждому перцептивное понимание, я специально нарисовал картинку:

Вертикальная ось на приведенном выше графике — log(p), а горизонтальная ось — p.

Тогда, продолжаем думать, приведенный выше -logP измеряет только неопределенность некоторой вероятности.Распределение вероятностей содержит несколько вероятностей, а сумма вероятностей равна 1. Если одна вероятность велика, должны быть и другие малые вероятности. . Если взять в качестве примера подбрасывание монеты, то вероятность выпадения орла с вероятностью 0,8 очень мала, но вероятность выпадения решки при этом равна 0,2, а неопределенность относительно велика. Это означает, что нам легче правильно угадать монету, выпавшую орлом, но сложнее правильно угадать решку. Очевидно, что если мы хотим измерить неопределенность распределения вероятностей, мы должны всесторонне измерить неопределенность всех вероятностных выражений. То есть найти неопределенность синтеза распределения вероятностей. Данг Данг Данг Данг! Энтропия официально здесь!

− ∑плог(р)

Этот показатель можно понимать как ожидаемое значение неопределенности распределения вероятностей. Чем больше значение, тем больше неопределенность распределения вероятностей. Чем меньше «информации» он предоставляет нам, людям, тем труднее нам использовать это распределение вероятностей, чтобы сделать правильное суждение. С этой точки зрения мы можем видеть, что энтропия является мерой информационного содержания распределения вероятностей и мерой неопределенности, на самом деле существует два способа интерпретации.

0x04 Энтропия распределения Бернулли

Для монеты, выбрасывающей орел и решку, ее распределение вероятностей является распределением Бернулли.Мы предполагаем, что вероятность выпадения орла равна p, тогда вероятность выпадения решки равна (1-p), а ее энтропия равна:

H( p) = −plog(p)−(1−p)log(1−p)

Вот так и рисуем.

Видно, что при p=0,5 энтропия распределения Бернулли достигает максимума. Это согласуется с нашим эмпирическим здравым смыслом, потому что в этот момент то, упадет ли монета вверх или вниз, является совершенно случайным с наибольшей неопределенностью.

Когда p стремится к 0, энтропия также стремится к 0. В крайнем случае, если монета выпадает орлом с вероятностью 1 и решкой с вероятностью 0, неопределенности вообще нет, поэтому энтропия равна 0, потому что энтропия — это разница между Мерой уверенности.

Давайте подумаем над другим вопросом. Мы говорим, что энтропия описывает неопределенность. В теории вероятности нет ли дисперсии, которую можно использовать для описания степени изменения переменных? Какова связь между ней и энтропией?

Интуитивно понятно, что чем больше дисперсия, тем больше неопределенность и тем больше должна быть энтропия, и это действительно так, см. график ниже:

Для распределения Бернулли нашего подбрасывания монеты максимальное значение дисперсии pq получается при p = 0,5, что также является значением p, при котором получается максимальная энтропия, как мы знаем из вышеизложенного.

Для нормального распределения мы видим, что ожидание не влияет на энтропию, влияет только дисперсия. Это также согласуется с нашей интуицией.

Выше мы проанализировали выражение энтропии с интуитивной точки зрения, насколько это возможно, а также проверили энтропию нескольких распределений и их связь с дисперсией распределения и обнаружили, что значения, которые должны быть описаны двумя по своей сути последователен. На данный момент мы можем, наконец, сказать, что мельком увидели истинное лицо Лушаня энтропии.

0xFF Сводка

Это первая часть того, что мы собираемся обсудить, далее мы собираемся обсудить различные другие энтропии, производные от энтропии, представленные в начале этой статьи.

Торжественно заявляем: эта статья воспроизводится, является плагиатом, цитируется мечником«Энтропия всех видов хаоса в интервью по машинному обучению». Когда мирянин изучал и упорядочивал соответствующие пункты знания, он обнаружил, что краткое изложение брата Чжуанцзяня было очень точным и легким для понимания. Запрошено согласие автора.