Базовые математические знания НЛП

NLP

энтропия

H(X) = - \sum_{x\in\mathbb{R}}{p(x)\log_2p(x)}

Единицей энтропии являются двоичные биты (биты), также известные как самоинформация, которую можно рассматривать как величину, описывающую неопределенность случайной величины. представляет собой источник информацииXпредоставляется каждым символомсредняя информация. Чем больше энтропия, тем больше неопределенность, тем меньше вероятность правильной оценки ее значения и тем она менее информативна.

Пример:a,b,c,d,e,fВероятность появления 6 символов:1/8,1/4,1/8,1/4,1/8,1/8, то энтропия каждого символа равна:

H(P) = -[4\times\frac{1}{8}log_2\frac{1}{8}+2\times\frac{1}{4}log_2\frac{1}{4}]=2\frac{1}{2}(比特)

Кодировка может быть предназначена для передачи символасреднийтребуется 2,5 бита

концепция максимальной энтропииУчитывая частичное знание неизвестного распределения, распределение вероятностей, которое максимизирует энтропию, наиболее точно отражает распределение событий.

\hat{p} = \mathop{argmax}_{p\in\mathbb{C}}H(p)

Совместная энтропия и условная энтропия

H(X,Y) = - \sum_{x\in X}\sum_{y\in Y}p(x,y)log_2p(x,y)

При расчетеp(x,y)=0Когда этот элемент равен 0. Совместная энтропия на самом деле представляет собой количество информации, необходимой для описания среднего значения пары случайных величин.

H(Y|X) =  \sum_ {x\in X}p(x)H(Y|X=x)=\sum_{x\in X}p(x)[-\sum_{y\in y}p(y|x)log_2p(y|x)]=-\sum_{x\in X}\sum_{y\in Y}p(x,y)log_2p(y|x)

Приведенная выше формула в основном предназначена для вывода следующих цепных правил. Требуется некоторое усилие, чтобы понять первый шаг. Кроме того, я знаком с формулой для расчета совместной энтропии различными способами. Я понимаю формулу, и ее легко найти энтропия при условной вероятности при ее подстановке.Более исчерпан.

Правило цепи

H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)

взаимная информация

I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)

I(X;Y)Он отражает знаниеYзначение послеXснижение неопределенности. можно понимать какYЗначение показывает, насколько оXобъем информации.

относительная энтропия

Также известен какKLРасстояние — это мера относительного расстояния между двумя распределениями вероятностей в одном и том же пространстве событий.p(x)иq(x)Относительная энтропия определяется как

D(p||q)= \sum_{x\in X}p(x)log_2\frac{p(x)}{q(x)}

согласен в определении0 log_2(0/q)=0,p log_2(p/0)=\infty. Выражено как ожидаемое значение

D(p||q)=E_p(log_2\frac{p(x)}{q(x)})

Когда два случайных распределения абсолютно одинаковы, т.е.p=q, а его относительная энтропия равна 0. По мере увеличения разницы между двумя случайными распределениями их относительные ожидания энтропии также увеличиваются.

Взаимная информация на самом деле является мерой того, насколько совместное распределение далеко от независимости:

I(X;Y)=D(p(x,y)||p(x)p(y))

перекрестная энтропия

Энтропия — это мера неопределенности, и чем больше вы о чем-то знаете, тем меньше у вас энтропии. Концепция перекрестной энтропии используется для измерения разницы между оценочной моделью и истинным распределением вероятностей.

Если случайная величинаX~p(x),q(x)для приближенияp(x)распределение вероятностей, то случайная величинаXи модельqПерекрестная энтропия между определяется как:

H(X,q)=H(X)+D(p||q)=- \sum_{x}p(x)log_2q(x)=E_p(log_2\frac{1}{q(x)})

Чем меньше кросс-энтропия модели, тем лучше ее производительность.

Этот документ в основном связан с трудностями реализации взаимной информации, перекрестной энтропии и т. д. в коде и требует глубокого понимания формулы определения. Кроме того, формула редактирования уценки очень красивая, и вы должны быть знакомы с написанием формулы. md исходный файл см.GitHub.com/Чжанхай внутри…

Библиография: Статистическая обработка естественного языка, Chengqing Zong