2. Теория вероятностей

2.1 Распределения вероятностей и случайные величины

2.1.1 Почему машинное обучение использует вероятность

Вероятность события – это мера того, насколько вероятно, что это событие произойдет. Хотя событие происходит случайно в рандомизированном исследовании,Большое количество повторных рандомизированных исследований в тех же условияхно часто показываютОчевидный количественный закон.

Машинному обучению часто приходится иметь дело с неопределенными, а иногда и случайными величинами. Почти все виды деятельности требуют некоторой способности рассуждать в условиях неопределенности.

Неопределенность и случайность могут исходить из многих источников, есть 3 возможных источника неопределенности:

Случайность, присущая моделируемой системе. Например, в карточной игре предполагается, что карты действительно перетасованы в случайном порядке.
неполное наблюдение. Для детерминированной системы, но если не все переменные, определяющие поведение системы, можно наблюдать, система также может проявлять случайность. Например, пусть игрок выбирает одну из трех дверей и получает приз за дверью, Приз за каждой дверью определен, но игрок не может его наблюдать, поэтому для игрока результат неясен.
неполное моделирование. При использовании моделей, которые должны отбрасывать некоторую информацию, отброшенная информация может привести к неопределенности прогнозов модели.

Во многих случаях более практично использовать простые и неопределенные правила, чем сложные и определенные правила.

Неопределенность может быть определена количественно с помощью теории вероятностей. Используйте вероятность для представления степени доверия,Вероятности, напрямую связанные с частотой событий, называются частотными вероятностями., например, вероятность того, что что-то произойдет, равна p, а это означает, что если испытание повторяется бесконечное число раз, существует доля p, что событие произойдет;в то время как тот, который включает уровень уверенности, называется байесовской вероятностью, например, когда врач ставит диагноз пациенту, вероятность того, что у него есть определенное заболевание, равна p.

Теория вероятностей играет центральную роль в машинном обучении, поскольку разработка алгоритмов машинного обучения часто основывается на вероятностных предположениях о данных.

Например, в классе машинного обучения (Эндрю Нг) будет наивная гипотеза Байеса, которая является примером условной независимости. Алгоритм обучения делает предположения о содержании и использует его, чтобы определить, является ли электронное письмо спамом или нет. Предположим, что условие вероятности появления слова x в сообщении не зависит от слова y, независимо от того, является ли сообщение спамом или нет. Ясно, что это предположение не лишено общности, поскольку некоторые слова почти всегда встречаются вместе. Однако конечным результатом является то, что это простое предположение мало влияет на результаты и в любом случае позволяет нам быстро идентифицировать спам.

2.1.2 В чем разница между переменной и случайной величиной

Случайные переменные(случайная переменная) — это переменная, которая может случайным образом принимать разные значения.

Он представляет собой вещественную функцию (все возможные точки выборки) различных исходов в случайном явлении (при определенных условиях явление, которое не всегда имеет один и тот же исход, называется случайным явлением). Например, количество пассажиров, ожидающих автобус на автобусной остановке за определенный период времени, количество звонков, полученных телефонной станцией за определенный период времени и т. д., — все это примеры случайных величин. Существенное отличие неопределенности случайных величин от нечетких величин состоит в том, что результаты измерения последних все же имеют неопределенность, т. е. нечеткость.

Отличие переменной от случайной величины:Когда вероятность значения переменной не равна 1, переменная становится случайной величиной; когда вероятность значения случайной величины равна 1, случайная величина становится переменной.

Например: когда переменная $x$ Если значение 100 имеет вероятность 1, то $x=100$ Это определено, и никаких дальнейших изменений не будет, если не будет дальнейшей операции. когда переменная $x$ Вероятность значения 100 не равна 1. Например, вероятность 50 равна 0,5, а вероятность 100 равна 0,5. Тогда эта переменная будет меняться при разных условиях. Это случайная величина. Вероятность получения 50 или 100 равно 0,5 или 50%.

2.1.3 Связь между случайными величинами и распределениями вероятностей

Случайная величина представляет собой только возможное состояние и также должнаУчитывая распределение вероятностей, которое идет с нимсформулировать возможности для каждого состояния. Метод, используемый для описания вероятности каждого возможного состояния случайной величины или группы случайных величин, представляет собой распределение вероятностей**.

Случайные величины можно разделить на дискретные случайные величины и непрерывные случайные величины.

Соответствующая функция, описывающая его распределение вероятностей, имеет вид:

функция массы вероятности(Функция массы вероятности, PMF): описывает распределение вероятностей дискретных случайных величин, обычно с заглавными буквами. $P$ Выражать.
Функция плотности вероятности(Функция плотности вероятности, PDF): описывает распределение вероятностей непрерывной случайной величины, обычно строчными буквами. $p$ Выражать.

2.1.4 Дискретные случайные величины и функции вероятностной массы

PMF отображает каждое состояние, которое может принять случайная величина.Вероятность того, что случайная величина примет это состояние.

Вообще говоря, $P(x)$ при выражении $Х=х$ вероятность, вероятность 1 означает $X=x$ определено, вероятность равна 0 означает $X=x$ невозможно;
Иногда, чтобы не было путаницы, необходимо явно написать имя случайной величины $P($ x $=x)$
Иногда необходимо сначала определить случайную величину, а затем сформулировать распределение вероятности x, которому она следует. $P($ x $)$

PMF может действовать на несколько случайных величин одновременно, а именносовместное распределение вероятностей(joint probability distribution) $P(X=x,Y=y)$ выражать $X=x$ и $Y=y$ Вероятность одновременного возникновения также может быть сокращена как $P(x,y)$ .

если функция $P$ является случайной величиной $X$ , то он должен удовлетворять следующим трем условиям:

$P$ Область определения должна быть множеством всех возможных состояний
$∀x∈$ x, $0 \leq P(x) \leq 1$ .
$∑_{x∈X} P(x)=1$ Мы называем это свойствонормализованный(нормализованный), если это свойство не выполняется, то, возможно, вероятность того, что что-то произойдет, будет больше 1.

2.1..5 Непрерывные случайные величины и функции плотности вероятности

если функция $p$ является PDF x, то он должен удовлетворять следующим условиям

$p$ Домен должен быть набором всех возможных состояний x.
$∀x∈X,p(x)≥0$ , Обратите внимание, что мы не требуем $р(х)≤1$ , потому что здесь $p(x)$ Представлена не конкретная вероятность, соответствующая этому состоянию, а относительная величина (плотность) вероятности. Конкретную вероятность необходимо вычислять интегралом.
$∫p(x)dx=1$ , После интегрирования сумма по-прежнему равна 1, а сумма вероятностей по-прежнему равна 1.

Примечание: PDF $p(x)$ не дает непосредственно вероятности для конкретного состояния, он даетплотность, напротив, дает площадь падения как $δx$ Вероятность беспроводной небольшой области $р(х)δх$ .

Следовательно, мы не можем получить вероятность определенного состояния, мы можем получить определенное состояние $x$ попасть в определенный диапазон $[a,b]$ Вероятность внутри $\int_{a}^{b}p(x)dx$ .

2.1.6 Пример для понимания условной вероятности

Формула условной вероятности выглядит следующим образом:

P(A|B) = P(A\cap B) / P(B)

Описание: в том же тестовом пространстве $\Omega$ события или подмножества $A$ и $B$ , если случайно из $\Omega$ Элемент, выбранный из, принадлежит $B$ , то следующий случайно выбранный элемент принадлежит $A$ Вероятность определяется как $B$ Предпосылка $A$ условная вероятность .

Диаграмма Венна условной вероятности показана на рис. 1.1.

Рисунок 1.1 Принципиальная схема диаграммы Венна условной вероятности

Из диаграммы Венна ясно видно, что при наступлении события В вероятность наступления события А равна $P(A\bigcap B)$ разделить на $P(B)$ .

Пример: Пара с двумя детьми, зная, что один из них девочка, какова вероятность того, что другой будет девочкой? (Были проведены собеседование и письменный тест)

Исчерпывающий метод: Зная, что один из них — девочка, пространство выборки состоит из мужчины, женщины и мужчины, а вероятность того, что другой — все еще девочка, равна 1/3.

Метод условной вероятности: $P (женщина | женщина) = P (женщина, женщина) / P (женщина)$ , у пары двое детей, то пространство выборки — женщина, мужчина, женщина, мужчина, тогда $П (женщина женщина)$ 1/4, $П (женщина) = 1-П (мужчина, мужчина) = 3/4$ , так наконец $1/3$ .

Здесь вы можете неправильно понять, что мужчины и женщины и мужчины и женщины — это одна и та же ситуация, но на самом деле похожие сестры и братья и сестры — это разные ситуации.

2.1.7 Разница между совместной вероятностью и предельной вероятностью

разница:Совместная вероятность: Совместная вероятность относится к чему-то вроде $P(X=a,Y=b)$ Таким образом, включаются несколько условий и вероятность того, что все условия будут удовлетворены одновременно. Совместная вероятность означает, что в многомерном распределении вероятностейВероятность того, что несколько случайных величин удовлетворяют соответствующим условиям.

Предельная вероятность:Предельная вероятность – это вероятность того, что событие произойдет независимо от других событий. Предельная вероятность относится к чему-то вроде $P(X=a)$ , $P(Y=b)$ Таким образом, вероятность связана только с одной случайной величиной.

соединять:

Совместное распределение может получить предельное распределение, но если известно только предельное распределение, совместное распределение получить невозможно.

2.1.8 Цепное правило условных вероятностей

Из определения условной вероятности непосредственно можно получить следующую формулу умножения: формула умножения $A, B$ два события и $P(A) > 0$ , то есть

P(AB) = P(B|A)P(A)

продвигать

P(ABC)=P(C|AB)P(B|A)P(A)

В общем случае по индукции можно доказать, что если $P(A_1A_2...A_n)>0$ , то есть

P(A_1A_2...A_n)=P(A_n|A_1A_2...A_{n-1})P(A_{n-1}|A_1A_2...A_{n-2})...P(A_2|A_1)P(A_1)\\ =P(A_1)\prod_{i=2}^{n}P(A_i|A_1A_2...A_{i-1})

Любое совместное распределение вероятностей многомерных случайных величин можно разложить в мультипликативную форму условных вероятностей только с одной переменной.

2.1.9 Независимость и условная независимость

независимостьдве случайные величины $x$ и $y$ , распределение вероятности может быть выражено как произведение двух факторов, один фактор содержит только $x$ , другой фактор содержит только $y$ , то можно сказать, что две случайные величины независимы друг от друга. Условие иногда вносит независимость между независимыми событиями, а иногда исходно независимые события теряют свою независимость из-за существования этого условия.

Пример: $P(XY)=P(X)P(Y)$ , событие $X$ и события $Y$ независимый. данный в это время $Z$ ,

P(X,Y|Z) \not = P(X|Z)P(Y|Z)

Когда события независимы, их совместная вероятность равна произведению вероятностей. Это очень красивое математическое свойство, однако, к сожалению, безусловная независимость встречается очень редко, потому что большую часть времени события взаимодействуют друг с другом.

условная независимостьданный $Z$ в случае, $X$ и $Y$ условно независимым тогда и только тогда, когда

X\bot Y|Z \iff P(X,Y|Z) = P(X|Z)P(Y|Z)

$X$ и $Y$ отношения зависят от $Z$ , а не генерируются напрямую.

ПримерОпределите следующие события: $X$ : завтра будет дождь; $Y$ : Земля сегодня мокрая; $Z$ : Сегодня идет дождь; $Z$ создание события, да $X$ и $Y$ иметь влияние, однако, в $Z$ Согласно предпосылке организации мероприятия, сегодняшние грунтовые условия не влияют на то, будет ли завтра дождь.

2.1.10 Общие формулы

Формулы, основанные на вероятностях

$P(A+B) = P(A)+P(B)-P(AB)$
$P(A-B)=P(A)-P(B)$
$P(AB)=P(A)P(B|A)$

полная вероятность

$P(A) = \sum_i P(B_i)P(A|B_i)$

байесовский

$P(B|A) = \frac{P(B)P(A|B)}{P(A)}$

2.1.11 Применение

нарисовать мяч

n шаров, для розыгрыша с возвратом и без

Извлечение с заменой, извлечь m элементов и расположить их в ряд, найти количество различных перестановок: $n^m$
Извлечение без замены, извлечь m элементов подряд и найти количество различных перестановок: $\frac{n!}{(n-m)!}$

2.2 Общие распределения вероятностей

2.2.1 Равномерное распределение

Равномерное распределение дискретных случайных величин: если предположить, что X имеет k значений, функция массы вероятности равномерного распределения будет:

p(X=x_i) = \frac{1}{k},i=1,2,\cdots,k

Равномерное распределение непрерывных случайных величин: если предположить, что X равномерно распределено на [a, b], его функция плотности вероятности:

p(X=x) = \begin{cases} 0,x\notin[a,b]\\ \frac{1}{b-a},x\in[a, b] \end{cases}

2.2.1 Распределение Бернулли

Распределение Бернулли(Распределение Бернулли, распределение 0-1) — это однобинарное распределение случайной величины, один параметр $\phi$ ∈ [0,1] управления, $\phi$ Дает вероятность того, что случайная величина равна 1. Основные свойства:

\begin{align*} P(x=1) &= \phi \\ P(x=0) &= 1-\phi \\ Функция массы вероятности: P(x=x) &= \phi^x(1 -\phi)^{1-x} \\ \end{align*}

Его ожидание и дисперсия:

\begin{align*} E_x[x] &= \phi \\ Var_x(x) &= \phi{(1-\phi)} \end{align*}

Область применения: Распределение Бернуллиподходит длядискретныйМоделирование случайных величин.

Распределение МультиноллиТакже известен какРаспределение по категориям, является сингломkЗначения распределяются случайным образом и часто используются для представленияРаспределение классификаций объектов. в $k$ конечнозначно, а распределение Мультинулли состоит из вектора $\vec{p}\in[0,1]^{k-1}$ параметризованный, каждый компонент $p_i$ означает первый $i$ вероятность состояния и $p_k=1-1^Tp$ .здесь $1^T$ Транспонирование вектора-столбца, все элементы которого равны единицам, на самом деле представляет собой сумму вероятностей для вектора p, кроме k. можно переписать как $p_k=1-\sum_{0}^{k-1}p_i$ .

Дополнительное биномиальное распределение, полиномиальное распределение:

Биномиальное распределение, популярная точечная монета подбрасывается несколько раз. Биномиальное распределениеn повторный тест БернуллиДискретное распределение вероятностей количества успехов.

Определим вероятность успеха x раз как: $f(x)=C_n^xp^x(1-p)^{n-x},x\in{0,1,\cdots,n}$ .

Ожидание np, дисперсия np(1-p)

Полиномиальное распределение является обобщением биномиального распределения. Биномиальная формула выполняет n экспериментов Бернулли, что означает, что для каждого эксперимента есть только два результата. сумма равна 1, то вероятность того, что один из исходов произойдет X раз, является полиномиальным распределением.

2.2.3 Гауссово распределение

Распределение Гаусса также называют нормальным распределением.(нормальное распределение) функция вероятности выглядит следующим образом:

N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}exp\left ( -\frac{1}{2\sigma^2}(x-\mu)^2 \right )

в, $\mu$ и $\sigma$ - среднее значение и стандартное отклонение, соответственно, а координата x центрального пика определяется выражением $\mu$ учитывая, что ширина пика ограничена $\sigma$ контроль, максимальный балл $x=\mu$ полученный в точке перегиба $x=\mu\pm\sigma$

В нормальном распределении ±1 $\sigma$ , ±2 $\sigma$ , ±3 $\sigma$ Вероятность падения составляет 68,3%, 95,5% и 99,73% соответственно Эти три числа лучше всего запомнить.

Кроме того, пусть $\mu=0,\sigma=1$ Распределение Гаусса упрощается до стандартного нормального распределения:

N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi}}exp\left ( -\frac{1}{2}x^2 \right )

Эффективно оцените функцию плотности вероятности:

N(x;\mu,\beta^{-1})=\sqrt{\frac{\beta}{2\pi}}exp\left(-\frac{1}{2}\beta(x-\mu)^2\right)

в, $\beta=\frac{1}{\sigma^2}$ по параметру $\бета∈(0, \infty)$ контролировать точность распределения.

2.2.4 Когда использовать нормальное распределение

В: Когда используется нормальное распределение?

Ответ: Отсутствие предварительных знаний о распределении действительных чисел, когда вы не знаете, какую форму выбрать,Вы никогда не ошибетесь с нормальным распределением по умолчанию, по следующим причинам:

Центральная предельная теорема говорит нам,Многие независимые случайные величины распределены приблизительно нормально., в действительности многие сложные системы можно смоделировать как нормально распределенный шум, даже если систему можно структурно разложить.
Нормальное распределение находится среди всех распределений вероятностей с одинаковой дисперсией,Распределение с наибольшей неопределенностью, другими словами,Нормальное распределение — это распределение, которое добавляет к модели наименьшие априорные знания..

Обобщение нормального распределения:

Нормальное распределение можно обобщить на $R^n$ пространство, теперь называемоемногомерное нормальное распределение, параметром которой является положительно определенная симметричная матрица $\Sigma$ :

N(x;\vec\mu,\Sigma)=\sqrt{\frac{1}{(2\pi)^ndet(\Sigma)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\Sigma^{-1}(\vec{x}-\vec{\mu})\right)

Эффективно оцените плотность вероятности для преимущественно нормального распределения:

N(x;\vec{\mu},\vec\beta^{-1}) = \sqrt{det(\vec\beta)}{(2\pi)^n}exp\left(-\frac{1}{2}(\vec{x}-\vec\mu)^T\beta(\vec{x}-\vec\mu)\right)

здесь, $\vec\beta$ является матрицей точности.

2.2.5 Экспоненциальное распределение

В глубоком обучении экспоненциальное распределение используется для описания $x=0$ Распределение граничных точек, полученных в точках, экспоненциальное распределение определяется следующим образом:

p(x;\lambda)=\lambda I_{x\geq 0}exp(-\lambda{x})

Индикаторная функция для экспоненциального распределения $I_{x\geq 0}$ делать $x$ Вероятность принятия отрицательного значения равна нулю.

2.2.6 Распределение Лапласа (распределение Лапласа)

Тесно связанным с ним распределением вероятностей является распределение Лапласа, которое позволяет нам $\mu$ Устанавливает пик вероятностной массы в

Laplace(x;\mu;\gamma)=\frac{1}{2\gamma}exp\left(-\frac{|x-\mu|}{\gamma}\right)

ожидание $\mu$ , дисперсия $2\gamma^2$

Распределение Лапласа более точное и уже, чем распределение Гаусса, и это свойство часто используется при регуляризации.

2.2.7 Распределение Пуассона

Предполагая, что среднее количество раз, когда событие происходит в единицу времени (или на единицу площади), равно λ, распределение Пуассона описывает вероятность того, что событие произойдет определенное количество раз в единицу времени (или на единицу площади), равное k. Функция плотности вероятности:

p(X=k;\lambda)=\frac{e^{-\lambda}\lambda^k}{k!}

ожидание $\lambda$ , дисперсия $\lambda$ .

2.2.8 Распределение Дирака и эмпирическое распределение

Распределение Дирака гарантирует, что вся масса в распределении вероятностей сосредоточена в одной точке. Дирак распределения Дирака $\delta$ функция (также называемаяединичная импульсная функция) определяется следующим образом:

p(x)=\delta(x-\mu), x\neq \mu

\int_{a}^{b}\delta(x-\mu)dx = 1, a < \mu < b

Распределение Дирака часто используется какэмпирическое распределениепоявляется компонент (эмпирического распределения)

\hat{p}(\vec{x})=\frac{1}{m}\sum_{i=1}^{m}\delta(\vec{x}-{\vec{x}}^{(i)})

Из них m баллов $x^{1},...,x^{m}$ заданный набор данных,эмпирическое распределениеплотность вероятности $\frac{1}{m}$ присваивается этим точкам.

Когда мы обучаем модель на обучающем наборе, можно считать, что эмпирическое распределение, полученное на этом обучающем наборе, указывает на то, чтоИсточник выборки.

Область применения: Дельта-функция Дирака подходит длянепрерывныйЭмпирическое распределение случайных величин.

Еще один важный момент в отношении эмпирического распределения заключается в том, что это функция плотности вероятности с наибольшей вероятностью обучающих данных.

2.2.9 Смешанное распределение

Также принято определять новые распределения вероятностей, комбинируя некоторые простые распределения вероятностей.

Обычный комбинированный методПостроить распределение смеси. Смешанный дистрибутив состоит из нескольких компонентных дистрибутивов.

Пример смешанного распределения: эмпирическое распределение вещественных переменных для каждого обучающего примера представляет собой смешанное распределение с распределениями Дирака в качестве компонентов.

смешанная модель— это простая стратегия объединения простых вероятностных распределений для получения более богатых. Очень мощной и распространенной смешанной моделью являетсяМодель гауссовой смеси.

Его компонентами являются распределения Гаусса, каждое со своими параметрами, средним значением и ковариационной матрицей.

2.3 Ожидание, дисперсия, ковариация, коэффициент корреляции

2.3.1 Ожидания

Математическое ожидание или ожидаемое значение функции f(x) по отношению к распределению P(x) — это среднее значение f(x), когда x генерируется P и f действует на x.

В теории вероятностей и статистике математическое ожидание (или среднее, также просто ожидание) — это вероятность каждого возможного исхода эксперимента, умноженная на сумму его исходов.Отражает размер среднего значения случайной величины.

Линейная операция: $E(ax+by+c) = aE(x)+bE(y)+c$
Форма продвижения: $E(\sum_{k=1}^{n}{a_ix_i+c}) = \sum_{k=1}^{n}{a_iE(x_i)+c}$
Ожидание функции: пусть $f(x)$ за $x$ функция, то $f(x)$ ожидание
- Дискретная функция: $E(f(x))=\sum_{k=1}^{n}{f(x_k)P(x_k)}$
- Непрерывная функция: $E(f(x))=\int_{-\infty}^{+\infty}{f(x)p(x)dx}$

Уведомление:

Математическое ожидание функции больше или равно ожидаемой функции (неравенство Дженсена, т.е. $E(f(x))\geqslant f(E(x))$

В общем, ожидание продукта не равно ожидаемому продукту.

если $X$ и $Y$ независимо друг от друга, то $E(xy)=E(x)E(y)$ .

2.3.2 Дисперсия

В теории вероятностей дисперсия используется дляИзмеряет, насколько случайная величина отклоняется от своего математического ожидания (т.е. среднего). Дисперсия — это особый вид ожидания. определяется как:

Var(x) = E((x-E(x))^2)

Свойства дисперсии:

1) $Var(x) = E(x^2) -E(x)^2$ 2) дисперсия константы равна 0; 3) Дисперсия не удовлетворяет линейному свойству; 4) Если $X$ и $Y$ Независимый, $Var(ax+by)=a^2Var(x)+b^2Var(y)$

2.3.3 Ковариация

Ковариация — это мера силы линейной корреляции между двумя переменными и шкалой переменной.. Ковариация двух случайных величин определяется как:

Cov(x,y)=E((x-E(x))(y-E(y)))

Дисперсия - это особый вид ковариации. когда $X=Y$ час, $Cov(x,y)=Var(x)=Var(y)$ .

Ковариационные свойства:

1) Ковариация независимых переменных равна 0. 2) Формула расчета ковариации:

Cov(\sum_{i=1}^{m}{a_ix_i}, \sum_{j=1}^{m}{b_jy_j}) = \sum_{i=1}^{m} \sum_{j=1}^{m}{a_ib_jCov(x_iy_i)}

3) Особые обстоятельства:

Cov(a+bx, c+dy) = bdCov(x, y)

2.3.4 Коэффициент корреляции

Коэффициент корреляции – это мера степени линейной корреляции между изучаемыми переменными.. Коэффициент корреляции двух случайных величин определяется как:

Corr(x,y) = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}}

Свойства коэффициента корреляции: 1) Ограниченность. Диапазон значений коэффициента корреляции составляет [-1,1], что можно рассматривать как безразмерную ковариацию. 2) Чем ближе значение к 1, тем сильнее положительная корреляция (линейная) между двумя переменными. Чем он ближе к -1, тем сильнее отрицательная корреляция, а когда он равен 0, это означает, что между двумя переменными нет корреляции.

2.4 Теория информации

Основное исследование теории информации состоит в том, чтобы количественно определить, сколько нового содержит сигнал.

Основная идея теории информации заключается в том, что маловероятное событие действительно происходит, предоставляя больше информации, чем очень вероятное событие.

Если вы хотите количественно оценить информацию с помощью этой базовой идеи, вам необходимо выполнить следующие 3 свойства:

Очень вероятные события менее информативны, а в крайних случаях события, которые гарантированно произойдут, не должны быть информативными;
Менее вероятные события содержат больше информации;
Независимые события должны иметь дополнительную информацию. Например, два броска монеты должны нести в два раза больше информации, чем орёл при подбрасывании монеты.

Здесь определяет событие x= $x$ изинформация о себеза:

I(x) = -log P(x)

Самоинформативные могут обрабатывать только один вывод. Можно использоватьЭнтропия Шеннонадля количественной оценки общего количества неопределенности во всем распределении вероятностей:

H(x) = -E_{x\sim P}[I(x)] = -E_{x\sim P}[logP(x)]

Также обозначается как H(P). Здесь E представляет ожидания, то есть энтропия Шеннона распределения относится к событиям, которые следуют за этим распределением.Ожидаемый объем информации.

И если есть два отдельных распределения вероятностей P(x) и Q(x) для случайной величины, то можно использоватьKL-расхождениечтобы измерить разницу между этими двумя распределениями:

D_{KL}(P||Q) = E_{x\sim P}[\frac{logP(x)}{logQ(x)}] = E_{x\sim P}[logP(x)-logQ(x)]

Пример: для энтропии Шеннона бинарного случайного распределения $H(x) =- (1-p)log(1-p)-plogp$

Свойства дивергенции KL:

неотрицательный;
Дивергенция KL равна 0 тогда и только тогда, когда P и Q являются одним и тем же распределением в случае дискретных переменных или одним и тем же «почти везде» в случае непрерывных переменных;
Часто используется для измерения некоторого расстояния между распределениями, но не совсем потому, что оно несимметрично.

Очень похоже на дивергенцию KL:перекрестная энтропия,Сейчас $H(P,Q)=H(P)+D_{KL}(P||Q)$ :

H(P,Q)=-E_{x\sim P}logQ(x)

Минимизация кросс-энтропии для Q эквивалентна минимизации дивергенции KL, поскольку Q не участвует в опущенном члене.

При вычислении этих величин часто встречается выражение 0log0, обработка которого, как правило, $lim_{x->0}xlogx = 0$

Добро пожаловать, чтобы обратить внимание на мой общедоступный номер--Примечания к алгоритму ИИчтобы получить больше заметок по алгоритму ИИ и заметок о чтении бумаги.