Базовые математические знания НЛП

энтропия

H(X) = - \sum_{x\in\mathbb{R}}{p(x)\log_2p(x)}

Единицей энтропии являются двоичные биты (биты), также известные как самоинформация, которую можно рассматривать как величину, описывающую неопределенность случайной величины. представляет собой источник информациипредоставляется каждым символомсредняя информация. Чем больше энтропия, тем больше неопределенность, тем меньше вероятность правильной оценки ее значения и тем она менее информативна.

Пример: a,b,c,d,e,f Вероятность появления 6 символов: 1/8,1/4,1/8,1/4,1/8,1/8 , то энтропия каждого символа равна:

H(P) = -[4\times\frac{1}{8}log_2\frac{1}{8}+2\times\frac{1}{4}log_2\frac{1}{4}]=2\frac{1}{2}（比特）

Кодировка может быть предназначена для передачи символасреднийтребуется 2,5 бита

концепция максимальной энтропииУчитывая частичное знание неизвестного распределения, распределение вероятностей, которое максимизирует энтропию, наиболее точно отражает распределение событий.

\hat{p} = \mathop{argmax}_{p\in\mathbb{C}}H(p)

Совместная энтропия и условная энтропия

H(X,Y) = - \sum_{x\in X}\sum_{y\in Y}p(x,y)log_2p(x,y)

При расчете p(x,y)=0 Когда этот элемент равен 0. Совместная энтропия на самом деле представляет собой количество информации, необходимой для описания среднего значения пары случайных величин.

H(Y|X) = \sum_ {x\in X}p(x)H(Y|X=x)=\sum_{x\in X}p(x)[-\sum_{y\in y}p(y|x)log_2p(y|x)]=-\sum_{x\in X}\sum_{y\in Y}p(x,y)log_2p(y|x)

Приведенная выше формула в основном предназначена для вывода следующих цепных правил. Требуется некоторое усилие, чтобы понять первый шаг. Кроме того, я знаком с формулой для расчета совместной энтропии различными способами. Я понимаю формулу, и ее легко найти энтропия при условной вероятности при ее подстановке.Более исчерпан.

Правило цепи

взаимная информация

I(X;Y) Он отражает знаниезначение послеснижение неопределенности. можно понимать какЗначение показывает, насколько ообъем информации.

относительная энтропия

Также известен какРасстояние — это мера относительного расстояния между двумя распределениями вероятностей в одном и том же пространстве событий. p(x) и q(x) Относительная энтропия определяется как

D(p||q)= \sum_{x\in X}p(x)log_2\frac{p(x)}{q(x)}

согласен в определении $0 log_2(0/q)=0,p log_2(p/0)=\infty$ . Выражено как ожидаемое значение

Когда два случайных распределения абсолютно одинаковы, т.е. p=q , а его относительная энтропия равна 0. По мере увеличения разницы между двумя случайными распределениями их относительные ожидания энтропии также увеличиваются.

Взаимная информация на самом деле является мерой того, насколько совместное распределение далеко от независимости:

перекрестная энтропия

Энтропия — это мера неопределенности, и чем больше вы о чем-то знаете, тем меньше у вас энтропии. Концепция перекрестной энтропии используется для измерения разницы между оценочной моделью и истинным распределением вероятностей.

Если случайная величина X~p(x) , q(x) для приближения p(x) распределение вероятностей, то случайная величинаи модельПерекрестная энтропия между определяется как:

H(X,q)=H(X)+D(p||q)=- \sum_{x}p(x)log_2q(x)=E_p(log_2\frac{1}{q(x)})

Чем меньше кросс-энтропия модели, тем лучше ее производительность.

Этот документ в основном связан с трудностями реализации взаимной информации, перекрестной энтропии и т. д. в коде и требует глубокого понимания формулы определения. Кроме того, формула редактирования уценки очень красивая, и вы должны быть знакомы с написанием формулы. md исходный файл см.GitHub.com/Чжанхай внутри…

Библиография: Статистическая обработка естественного языка, Chengqing Zong