Энтропия, количество информации, информационная энтропия, перекрестная энтропия - личное резюме

машинное обучение искусственный интеллект алгоритм Байду

1. Понимание энтропии

1、首先看到这个词会产疑问,熵是什么?谁定义的?用来干什么的?为什么机器学习会用到熵?
有了这些疑问后慢慢的开始探索~

Энтропия — один из параметров, характеризующих состояние вещества в термодинамике, — обозначается символом S, а ее физический смысл — мера степени беспорядка в системе. Клаузиус (Т. Клаузиус) предложил понятие энтропии в 1854 г., а китайский физик профессор Ху Ганфу впервые перевел энтропию как «энтропия» в 1923 г. по смыслу теплоты и температурного коэффициента. А. Эйнштейн в свое время обозначил статус теории энтропии в науке как «теория энтропии есть первый закон для всей науки».


Чтобы понять энтропию, нужно сказать немного физики.

В 19 веке физики начали понимать, что движущей силой мира является энергия, и предложили «закон сохранения энергии», то есть сумма энергий постоянна. Однако было одно явление, которое их озадачило.

(На картинке выше маятник находится в самой высокой точке с обеих сторон, потенциальная энергия наибольшая, а кинетическая энергия равна нулю; в нижней точке посередине кинетическая энергия наибольшая, потенциальная энергия равна ноль, и энергия всегда сохраняется.)

Физики обнаружили, что энергия не может быть преобразована на 100 процентов. Например, паровой двигатель использует тепловую энергию, преобразуя ее в механическую энергию, приводящую в движение машину. При этом часть тепловой энергии всегда теряется и не может быть полностью преобразована в механическую энергию.

(На рисунке выше преобразование энергии E всегда приводит к потерям энергии ∆E.)

Сначала физики думали, что это вызвано низким уровнем технологий, но позже обнаружили, что какими бы продвинутыми ни были технологии, потери энергии не могут быть сведены к нулю. Энергию, которая тратится впустую в процессе преобразования энергии и не может быть повторно использована, они называют энтропией.

Позже эта концепция была сформулирована как «Второй закон термодинамики»: преобразование энергии всегда производит энтропию, и если это замкнутая система, вся энергия в конечном итоге становится энтропией.

熵既然是能量,为什么无法利用?它又是怎么产生的?为什么所有能量最后都会变成熵?

У физиков есть много объяснений, но я думаю, одно из них легче всего понять: при преобразовании энергии большая часть энергии будет преобразована в заданное состояние, например, тепловая энергия в механическую энергию, электрическая энергия в световую энергию. Но, как и в случае с клеточными мутациями, есть часть энергии, которая порождает новые состояния. Эта часть энергии представляет собой энтропию, которую трудно использовать из-за различных состояний, если только новая энергия не вводится извне специально для работы с энтропией.

(Выше показано, что в процессе преобразования энергии создается много новых состояний.)

Таким образом, энергетические переходы создают новые состояния, а энтропия — это энергия, которая переходит в эти состояния.

现在请大家思考:状态多意味着什么?

Больше состояний означает больше возможностей, что означает больше хаоса; меньше состояний означает меньше возможностей и, условно говоря, больше порядка. Поэтому другое выражение приведенного выше вывода: преобразование энергии будет увеличивать хаос системы, а энтропия — это хаос системы.

(На рисунке выше низкая энтропия означает низкий уровень хаоса, а высокая энтропия означает высокий уровень хаоса.)

Чем больше преобразованной энергии, тем больше новых состояний создается, поэтому система с высокой энергией менее стабильна, чем система с низкой энергией, из-за ее большей энтропии. Кроме того, любая движущаяся система будет иметь преобразование энергии.Второй закон термодинамики гласит, что все замкнутые системы в конечном итоге будут стремиться к наиболее хаотичному состоянию, если не будет введена внешняя энергия.

(На картинке выше кубики льда представляют собой упорядоченное расположение молекул. После поглощения энергии они становятся жидкой водой, и расположение молекул становится беспорядочным.)

熵让我理解了一件事,如果不施加外力影响,事物永远向着更混乱的状态发展。比如,房间如果没人打扫,只会越来越乱,不可能越来越干净。

(На картинке выше, если энергия не тратится на уборку, в комнате всегда становится грязнее.)

熵的解释是混乱度的度量单位,一个系统的混乱度越高它的熵就越高

2. Поймите объем информации

Мы знаем, что понятие энтропии возникло в физике и используется для измерения степени беспорядка в термодинамической системе. В теории информации энтропия является мерой неопределенности.

这里有又产生了疑问,熵怎么就合信息论产生了关系?

Информация — это то, о чем мы говорили, но само понятие все еще относительно абстрактно. Определение в энциклопедии Baidu: информация обычно относится ко всему контенту, передаваемому человеческим обществом, и относится к объектам, передаваемым и обрабатываемым информацией, сообщениями и системами связи.

1、信息量和事件发生的概率相关,事件发生的概率越低,传递的信息量越大;
2、信息量应当是非负的,必然发生的事件的信息量为零;
3、两个事件的信息量可以相加,并且两个独立事件的联合信息量应该是他们各自信息量的和;

Выражается математически следующим образом:

3. Понимание информационной энтропии

Но можно ли количественно определить информацию и как? Ответ, конечно, да, это «информационная энтропия». Еще в 1948 году Шеннон заявил в своих знаменитых «Математических принципах коммуникации», что «информация — это то, что используется для устранения случайной неопределенности», и предложил концепцию «информационной энтропии» (заимствованную из термодинамики). Понятие энтропии), для решения Проблема измерения информации.

好了,这里就产生了信息熵!那么怎么解释呢?那信息熵如何计算呢?

Возьмем тот же пример, что и Ву Цзюнь в «Красоте математики», предполагая, что были сгенерированы 32 лучших в финале чемпионата мира, тогда случайная величина «Кто является чемпионом мира среди 32 лучших на чемпионате мира 2018 года в Россия?» Каков объем информации?

Согласно формуле информационной энтропии, данной Шенноном, для любой случайной величины X ее информационная энтропия определяется следующим образом в битах:

Поставьте в конце ведущий знак минус, и получится:

上面两个熵的公式,无论用哪个都行,而且两者等价,一个意思。

Тогда количество информации для приведенной выше случайной величины (кто выиграет чемпионат) равно:

Среди них p1, p2, ..., p32 — вероятность того, что 32 лучших команды выиграют чемпионат. Книга Ву Цзюня дает несколько выводов: во-первых, когда 32 лучшие команды имеют одинаковую вероятность победы в чемпионате, H=5; во-вторых, когда вероятность выиграть чемпионат различна, H

Для второго и третьего выводов: используйте для доказательства метод множителей Лагранжа, подробнее см. «Метод множителей Лагранжа для экстремальных значений при ограничениях». Фактически это означает, что чем равновероятнее вероятность различных случайностей в системе, тем больше информационная энтропия, и наоборот.

从香农给出的数学公式上可以看出,信息熵其实是一个随机变量信息量的数学期望。

В повседневной жизни мы часто говорим, что чья-то речь лаконична и лаконична, но объем информации очень большой.Некоторые люди как река, но чуши много, а информации мало.Сюжет этого Сериал слишком затянут, а серия почти закончена, а контента нет. Какое отношение количество информации/контента здесь имеет к информационной энтропии?

Многие путают эти вещи с информационной энтропией и приходят к выводу, что «чем больше объем речевой информации, тем выше информационная энтропия», «чем лаконичнее и исчерпывающе язык, тем выше информационная энтропия; язык, тем ниже информационная энтропия." И так далее.

Это не значит, что эти утверждения ошибочны, но они легко вводят в заблуждение. Лично я думаю, что количество информации в повседневном контексте здесь не столько количество информации, сколько качество информации и эффективность передачи информации, будь то сухие товары, мнения или мысли, и в пределах определенная длина текста/время воспроизведения. Эффективность его выражения на самом деле зависит от человеческих способностей и не имеет ничего общего с информационной энтропией!

В-четвертых, совместная энтропия, условная энтропия, перекрестная энтропия.

联合熵:两个随机变量X,Y的联合分布,可以形成联合熵Joint Entropy,用H(X,Y)表示。

条件熵:在随机变量X发生的前提下,随机变量Y发生所新带来的熵定义为Y的条件熵,用H(Y|X)表示,用来衡量在已知随机变量X的条件下随机变量Y的不确定性。

И эта формула верна: H(Y|X) = H(X,Y) – H(X), вся формула представляет энтропию, содержащуюся в появлении (X,Y), минус энтропия, содержащаяся в появлении только X . Что касается того, как его получить, см. вывод:

Кратко объясните приведенный выше процесс вывода. Вся формула состоит из 6 строк, среди которых

第二行推到第三行的依据是边缘分布p(x)等于联合分布p(x,y)的和;
第三行推到第四行的依据是把公因子logp(x)乘进去,然后把x,y写在一起;
第四行推到第五行的依据是:因为两个sigma都有p(x,y),故提取公因子p(x,y)放到外边,然后把里边的-(logp(x,y)-logp(x))写成- log(p(x,y)/p(x)) ;
第五行推到第六行的依据是:条件概率的定义p(x,y) = p(x) * p(y|x),故p(x,y) / p(x) = p(y|x)。

相对熵:又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度等。设p(x)、q(x)是X中取值的两个概率分布,则p对q的相对熵是:

В определенной степени относительная энтропия может измерять «расстояние» между двумя случайными величинами, и существует D(p||q) ≠ D(q||p). Кроме того, стоит отметить, что D(p||q) должно быть больше или равно 0.

приложение:Совместная энтропия, условная энтропия, перекрестная энтропия, взаимная информация


#кросс-энтропийный пример

Это определение формулы. И x, и y представляют распределения вероятностей (примечание: есть также много статей, в которых нравится использовать p и q для их представления). Что может сделать эта штука?

Предполагая, что x является правильным распределением вероятностей, а y является предсказанным нами распределением вероятностей, результат, рассчитанный по этой формуле, указывает степень ошибки между y и правильным ответом x (т. е. насколько ошибочен y), чем больше значение результата Чем меньше значение y, тем оно точнее и ближе к x.

Например:

Распределение вероятности x: {1/4, 1/4, 1/4, 1/4}, и теперь мы используем машинное обучение для прогнозирования двух наборов значений:

Распределение вероятностей y1 равно {1/4, 1/2, 1/8, 1/8}

Распределение вероятностей y2 равно {1/4, 1/4, 1/8, 3/8}

Интуитивно понятно, что в распределении y2 первые два элемента верны на 100 %, тогда как y1 верна только на 100 % для первого элемента, поэтому y2 кажется более точным. Давайте посмотрим, рассчитывается ли формула, является ли она интуитивно понятной:

Сравнивая результаты, вычисленное значение H(x, y1) равно 9/4, а значение H(x, y2) немного меньше 9/4.Согласно объяснению только что, чем меньше перекрестная энтропия, чем ближе два распределения, поэтому в машинном обучении в качестве функции потерь часто используется перекрестная энтропия.