1. Понимание энтропии
1、首先看到这个词会产疑问,熵是什么?谁定义的?用来干什么的?为什么机器学习会用到熵?
有了这些疑问后慢慢的开始探索~
Энтропия — один из параметров, характеризующих состояние вещества в термодинамике, — обозначается символом S, а ее физический смысл — мера степени беспорядка в системе. Клаузиус (Т. Клаузиус) предложил понятие энтропии в 1854 г., а китайский физик профессор Ху Ганфу впервые перевел энтропию как «энтропия» в 1923 г. по смыслу теплоты и температурного коэффициента. А. Эйнштейн в свое время обозначил статус теории энтропии в науке как «теория энтропии есть первый закон для всей науки».
Чтобы понять энтропию, нужно сказать немного физики.
В 19 веке физики начали понимать, что движущей силой мира является энергия, и предложили «закон сохранения энергии», то есть сумма энергий постоянна. Однако было одно явление, которое их озадачило.
Физики обнаружили, что энергия не может быть преобразована на 100 процентов. Например, паровой двигатель использует тепловую энергию, преобразуя ее в механическую энергию, приводящую в движение машину. При этом часть тепловой энергии всегда теряется и не может быть полностью преобразована в механическую энергию.
(На рисунке выше преобразование энергии E всегда приводит к потерям энергии ∆E.)
Сначала физики думали, что это вызвано низким уровнем технологий, но позже обнаружили, что какими бы продвинутыми ни были технологии, потери энергии не могут быть сведены к нулю. Энергию, которая тратится впустую в процессе преобразования энергии и не может быть повторно использована, они называют энтропией.
Позже эта концепция была сформулирована как «Второй закон термодинамики»: преобразование энергии всегда производит энтропию, и если это замкнутая система, вся энергия в конечном итоге становится энтропией.
熵既然是能量,为什么无法利用?它又是怎么产生的?为什么所有能量最后都会变成熵?
У физиков есть много объяснений, но я думаю, одно из них легче всего понять: при преобразовании энергии большая часть энергии будет преобразована в заданное состояние, например, тепловая энергия в механическую энергию, электрическая энергия в световую энергию. Но, как и в случае с клеточными мутациями, есть часть энергии, которая порождает новые состояния. Эта часть энергии представляет собой энтропию, которую трудно использовать из-за различных состояний, если только новая энергия не вводится извне специально для работы с энтропией.
(Выше показано, что в процессе преобразования энергии создается много новых состояний.)
Таким образом, энергетические переходы создают новые состояния, а энтропия — это энергия, которая переходит в эти состояния.
现在请大家思考:状态多意味着什么?
Больше состояний означает больше возможностей, что означает больше хаоса; меньше состояний означает меньше возможностей и, условно говоря, больше порядка. Поэтому другое выражение приведенного выше вывода: преобразование энергии будет увеличивать хаос системы, а энтропия — это хаос системы.
(На рисунке выше низкая энтропия означает низкий уровень хаоса, а высокая энтропия означает высокий уровень хаоса.)
Чем больше преобразованной энергии, тем больше новых состояний создается, поэтому система с высокой энергией менее стабильна, чем система с низкой энергией, из-за ее большей энтропии. Кроме того, любая движущаяся система будет иметь преобразование энергии.Второй закон термодинамики гласит, что все замкнутые системы в конечном итоге будут стремиться к наиболее хаотичному состоянию, если не будет введена внешняя энергия.
熵让我理解了一件事,如果不施加外力影响,事物永远向着更混乱的状态发展。比如,房间如果没人打扫,只会越来越乱,不可能越来越干净。
(На картинке выше, если энергия не тратится на уборку, в комнате всегда становится грязнее.)
熵的解释是混乱度的度量单位,一个系统的混乱度越高它的熵就越高
2. Поймите объем информации
Мы знаем, что понятие энтропии возникло в физике и используется для измерения степени беспорядка в термодинамической системе. В теории информации энтропия является мерой неопределенности.
这里有又产生了疑问,熵怎么就合信息论产生了关系?
Информация — это то, о чем мы говорили, но само понятие все еще относительно абстрактно. Определение в энциклопедии Baidu: информация обычно относится ко всему контенту, передаваемому человеческим обществом, и относится к объектам, передаваемым и обрабатываемым информацией, сообщениями и системами связи.
1、信息量和事件发生的概率相关,事件发生的概率越低,传递的信息量越大;
2、信息量应当是非负的,必然发生的事件的信息量为零;
3、两个事件的信息量可以相加,并且两个独立事件的联合信息量应该是他们各自信息量的和;
Выражается математически следующим образом:
3. Понимание информационной энтропии
Но можно ли количественно определить информацию и как? Ответ, конечно, да, это «информационная энтропия». Еще в 1948 году Шеннон заявил в своих знаменитых «Математических принципах коммуникации», что «информация — это то, что используется для устранения случайной неопределенности», и предложил концепцию «информационной энтропии» (заимствованную из термодинамики). Понятие энтропии), для решения Проблема измерения информации.
好了,这里就产生了信息熵!那么怎么解释呢?那信息熵如何计算呢?
Возьмем тот же пример, что и Ву Цзюнь в «Красоте математики», предполагая, что были сгенерированы 32 лучших в финале чемпионата мира, тогда случайная величина «Кто является чемпионом мира среди 32 лучших на чемпионате мира 2018 года в Россия?» Каков объем информации?
Согласно формуле информационной энтропии, данной Шенноном, для любой случайной величины X ее информационная энтропия определяется следующим образом в битах:
上面两个熵的公式,无论用哪个都行,而且两者等价,一个意思。
Тогда количество информации для приведенной выше случайной величины (кто выиграет чемпионат) равно:
Среди них p1, p2, ..., p32 — вероятность того, что 32 лучших команды выиграют чемпионат. Книга Ву Цзюня дает несколько выводов: во-первых, когда 32 лучшие команды имеют одинаковую вероятность победы в чемпионате, H=5; во-вторых, когда вероятность выиграть чемпионат различна, H
Для второго и третьего выводов: используйте для доказательства метод множителей Лагранжа, подробнее см. «Метод множителей Лагранжа для экстремальных значений при ограничениях». Фактически это означает, что чем равновероятнее вероятность различных случайностей в системе, тем больше информационная энтропия, и наоборот.
从香农给出的数学公式上可以看出,信息熵其实是一个随机变量信息量的数学期望。
В повседневной жизни мы часто говорим, что чья-то речь лаконична и лаконична, но объем информации очень большой.Некоторые люди как река, но чуши много, а информации мало.Сюжет этого Сериал слишком затянут, а серия почти закончена, а контента нет. Какое отношение количество информации/контента здесь имеет к информационной энтропии?
Многие путают эти вещи с информационной энтропией и приходят к выводу, что «чем больше объем речевой информации, тем выше информационная энтропия», «чем лаконичнее и исчерпывающе язык, тем выше информационная энтропия; язык, тем ниже информационная энтропия." И так далее.
Это не значит, что эти утверждения ошибочны, но они легко вводят в заблуждение. Лично я думаю, что количество информации в повседневном контексте здесь не столько количество информации, сколько качество информации и эффективность передачи информации, будь то сухие товары, мнения или мысли, и в пределах определенная длина текста/время воспроизведения. Эффективность его выражения на самом деле зависит от человеческих способностей и не имеет ничего общего с информационной энтропией!
В-четвертых, совместная энтропия, условная энтропия, перекрестная энтропия.
联合熵:两个随机变量X,Y的联合分布,可以形成联合熵Joint Entropy,用H(X,Y)表示。
条件熵:在随机变量X发生的前提下,随机变量Y发生所新带来的熵定义为Y的条件熵,用H(Y|X)表示,用来衡量在已知随机变量X的条件下随机变量Y的不确定性。
И эта формула верна: H(Y|X) = H(X,Y) – H(X), вся формула представляет энтропию, содержащуюся в появлении (X,Y), минус энтропия, содержащаяся в появлении только X . Что касается того, как его получить, см. вывод:
第二行推到第三行的依据是边缘分布p(x)等于联合分布p(x,y)的和;
第三行推到第四行的依据是把公因子logp(x)乘进去,然后把x,y写在一起;
第四行推到第五行的依据是:因为两个sigma都有p(x,y),故提取公因子p(x,y)放到外边,然后把里边的-(logp(x,y)-logp(x))写成- log(p(x,y)/p(x)) ;
第五行推到第六行的依据是:条件概率的定义p(x,y) = p(x) * p(y|x),故p(x,y) / p(x) = p(y|x)。
相对熵:又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度等。设p(x)、q(x)是X中取值的两个概率分布,则p对q的相对熵是:
приложение:Совместная энтропия, условная энтропия, перекрестная энтропия, взаимная информация
#кросс-энтропийный пример
Предполагая, что x является правильным распределением вероятностей, а y является предсказанным нами распределением вероятностей, результат, рассчитанный по этой формуле, указывает степень ошибки между y и правильным ответом x (т. е. насколько ошибочен y), чем больше значение результата Чем меньше значение y, тем оно точнее и ближе к x.
Например:
Распределение вероятности x: {1/4, 1/4, 1/4, 1/4}, и теперь мы используем машинное обучение для прогнозирования двух наборов значений:
Распределение вероятностей y1 равно {1/4, 1/2, 1/8, 1/8}
Распределение вероятностей y2 равно {1/4, 1/4, 1/8, 3/8}
Интуитивно понятно, что в распределении y2 первые два элемента верны на 100 %, тогда как y1 верна только на 100 % для первого элемента, поэтому y2 кажется более точным. Давайте посмотрим, рассчитывается ли формула, является ли она интуитивно понятной:
Сравнивая результаты, вычисленное значение H(x, y1) равно 9/4, а значение H(x, y2) немного меньше 9/4.Согласно объяснению только что, чем меньше перекрестная энтропия, чем ближе два распределения, поэтому в машинном обучении в качестве функции потерь часто используется перекрестная энтропия.