Заметки по математике. Теория вероятностей

математика

2. Теория вероятностей

2.1 Распределения вероятностей и случайные величины

2.1.1 Почему машинное обучение использует вероятность

Вероятность события – это мера того, насколько вероятно, что это событие произойдет. Хотя событие происходит случайно в рандомизированном исследовании,Большое количество повторных рандомизированных исследований в тех же условияхно часто показываютОчевидный количественный закон.

Машинному обучению часто приходится иметь дело с неопределенными, а иногда и случайными величинами. Почти все виды деятельности требуют некоторой способности рассуждать в условиях неопределенности.

Неопределенность и случайность могут исходить из многих источников, есть 3 возможных источника неопределенности:

  1. Случайность, присущая моделируемой системе. Например, в карточной игре предполагается, что карты действительно перетасованы в случайном порядке.
  2. неполное наблюдение. Для детерминированной системы, но если не все переменные, определяющие поведение системы, можно наблюдать, система также может проявлять случайность. Например, пусть игрок выбирает одну из трех дверей и получает приз за дверью, Приз за каждой дверью определен, но игрок не может его наблюдать, поэтому для игрока результат неясен.
  3. неполное моделирование. При использовании моделей, которые должны отбрасывать некоторую информацию, отброшенная информация может привести к неопределенности прогнозов модели.

Во многих случаях более практично использовать простые и неопределенные правила, чем сложные и определенные правила.

Неопределенность может быть определена количественно с помощью теории вероятностей. Используйте вероятность для представления степени доверия,Вероятности, напрямую связанные с частотой событий, называются частотными вероятностями., например, вероятность того, что что-то произойдет, равна p, а это означает, что если испытание повторяется бесконечное число раз, существует доля p, что событие произойдет;в то время как тот, который включает уровень уверенности, называется байесовской вероятностью, например, когда врач ставит диагноз пациенту, вероятность того, что у него есть определенное заболевание, равна p.

Теория вероятностей играет центральную роль в машинном обучении, поскольку разработка алгоритмов машинного обучения часто основывается на вероятностных предположениях о данных.

Например, в классе машинного обучения (Эндрю Нг) будет наивная гипотеза Байеса, которая является примером условной независимости. Алгоритм обучения делает предположения о содержании и использует его, чтобы определить, является ли электронное письмо спамом или нет. Предположим, что условие вероятности появления слова x в сообщении не зависит от слова y, независимо от того, является ли сообщение спамом или нет. Ясно, что это предположение не лишено общности, поскольку некоторые слова почти всегда встречаются вместе. Однако конечным результатом является то, что это простое предположение мало влияет на результаты и в любом случае позволяет нам быстро идентифицировать спам.

2.1.2 В чем разница между переменной и случайной величиной

Случайные переменные(случайная переменная) — это переменная, которая может случайным образом принимать разные значения.

Он представляет собой вещественную функцию (все возможные точки выборки) различных исходов в случайном явлении (при определенных условиях явление, которое не всегда имеет один и тот же исход, называется случайным явлением). Например, количество пассажиров, ожидающих автобус на автобусной остановке за определенный период времени, количество звонков, полученных телефонной станцией за определенный период времени и т. д., — все это примеры случайных величин. Существенное отличие неопределенности случайных величин от нечетких величин состоит в том, что результаты измерения последних все же имеют неопределенность, т. е. нечеткость.

Отличие переменной от случайной величины:Когда вероятность значения переменной не равна 1, переменная становится случайной величиной; когда вероятность значения случайной величины равна 1, случайная величина становится переменной.

Например: когда переменнаяxxЕсли значение 100 имеет вероятность 1, тоx=100x=100Это определено, и никаких дальнейших изменений не будет, если не будет дальнейшей операции. когда переменнаяxxВероятность значения 100 не равна 1. Например, вероятность 50 равна 0,5, а вероятность 100 равна 0,5. Тогда эта переменная будет меняться при разных условиях. Это случайная величина. Вероятность получения 50 или 100 равно 0,5 или 50%.

2.1.3 Связь между случайными величинами и распределениями вероятностей

Случайная величина представляет собой только возможное состояние и также должнаУчитывая распределение вероятностей, которое идет с нимсформулировать возможности для каждого состояния. Метод, используемый для описания вероятности каждого возможного состояния случайной величины или группы случайных величин, представляет собой распределение вероятностей**.

Случайные величины можно разделить на дискретные случайные величины и непрерывные случайные величины.

Соответствующая функция, описывающая его распределение вероятностей, имеет вид:

  • функция массы вероятности(Функция массы вероятности, PMF): описывает распределение вероятностей дискретных случайных величин, обычно с заглавными буквами.PPВыражать.

  • Функция плотности вероятности(Функция плотности вероятности, PDF): описывает распределение вероятностей непрерывной случайной величины, обычно строчными буквами.ppВыражать.

2.1.4 Дискретные случайные величины и функции вероятностной массы

PMF отображает каждое состояние, которое может принять случайная величина.Вероятность того, что случайная величина примет это состояние.

  • Вообще говоря,P(x)P(x)при выражении X=xХ=хвероятность, вероятность 1 означаетX=x X=xопределено, вероятность равна 0 означаетX=x X=xневозможно;
  • Иногда, чтобы не было путаницы, необходимо явно написать имя случайной величиныP(P(x=x)=x)
  • Иногда необходимо сначала определить случайную величину, а затем сформулировать распределение вероятности x, которому она следует.P(P(x))

PMF может действовать на несколько случайных величин одновременно, а именносовместное распределение вероятностей(joint probability distribution) P(X=x,Y=y)P(X=x,Y=y)выражатьX=xX=xи Y=yY=yВероятность одновременного возникновения также может быть сокращена какP(x,y)P(x,y).

если функцияPPявляется случайной величинойXX, то он должен удовлетворять следующим трем условиям:

  • PPОбласть определения должна быть множеством всех возможных состояний
  • xе∀x∈x, 0P(x)10 \leq P(x) \leq 1 .
  • xеXP(x)=1∑_{x∈X} P(x)=1Мы называем это свойствонормализованный(нормализованный), если это свойство не выполняется, то, возможно, вероятность того, что что-то произойдет, будет больше 1.

2.1..5 Непрерывные случайные величины и функции плотности вероятности

если функцияppявляется PDF x, то он должен удовлетворять следующим условиям

  • ppДомен должен быть набором всех возможных состояний x.
  • xеX,p(x)0∀x∈X,p(x)≥0, Обратите внимание, что мы не требуемp(x)1р(х)≤1, потому что здесьp(x)p(x)Представлена ​​не конкретная вероятность, соответствующая этому состоянию, а относительная величина (плотность) вероятности. Конкретную вероятность необходимо вычислять интегралом.
  • p(x)dx=1∫p(x)dx=1, После интегрирования сумма по-прежнему равна 1, а сумма вероятностей по-прежнему равна 1.

Примечание: PDFp(x)p(x)не дает непосредственно вероятности для конкретного состояния, он даетплотность, напротив, дает площадь падения какдельтаxδxВероятность беспроводной небольшой областиp(x)дельтаxр(х)δх.

Следовательно, мы не можем получить вероятность определенного состояния, мы можем получить определенное состояниеxxпопасть в определенный диапазон[a,b][a,b]Вероятность внутриabp(x)dx \int_{a}^{b}p(x)dx.

2.1.6 Пример для понимания условной вероятности

Формула условной вероятности выглядит следующим образом:

P(AB)=P(AB)/P(B)P(A|B) = P(A\cap B) / P(B)

Описание: в том же тестовом пространствеОм\Omegaсобытия или подмножестваAAиBB, если случайно изОм\OmegaЭлемент, выбранный из, принадлежитBB, то следующий случайно выбранный элемент принадлежитAAВероятность определяется какBBПредпосылкаAAусловная вероятность .

Диаграмма Венна условной вероятности показана на рис. 1.1.

Рисунок 1.1 Принципиальная схема диаграммы Венна условной вероятности

Из диаграммы Венна ясно видно, что при наступлении события В вероятность наступления события А равнаP(AB)P(A\bigcap B)разделить наP(B)P(B).

Пример: Пара с двумя детьми, зная, что один из них девочка, какова вероятность того, что другой будет девочкой? (Были проведены собеседование и письменный тест)

Исчерпывающий метод: Зная, что один из них — девочка, пространство выборки состоит из мужчины, женщины и мужчины, а вероятность того, что другой — все еще девочка, равна 1/3.

Метод условной вероятности:P(ЖенскийЖенский)=P(женский)/P(Женский)P (женщина | женщина) = P (женщина, женщина) / P (женщина), у пары двое детей, то пространство выборки — женщина, мужчина, женщина, мужчина, тогдаP(женский)П (женщина женщина)1/4,P(Женский)=1P(мужчина мужчина)=3/4П (женщина) = 1-П (мужчина, мужчина) = 3/4, так наконец1/31/3.

Здесь вы можете неправильно понять, что мужчины и женщины и мужчины и женщины — это одна и та же ситуация, но на самом деле похожие сестры и братья и сестры — это разные ситуации.

2.1.7 Разница между совместной вероятностью и предельной вероятностью

разница:Совместная вероятность: Совместная вероятность относится к чему-то вродеP(X=a,Y=b)P(X=a,Y=b)Таким образом, включаются несколько условий и вероятность того, что все условия будут удовлетворены одновременно. Совместная вероятность означает, что в многомерном распределении вероятностейВероятность того, что несколько случайных величин удовлетворяют соответствующим условиям.

Предельная вероятность:Предельная вероятность – это вероятность того, что событие произойдет независимо от других событий. Предельная вероятность относится к чему-то вродеP(X=a)P(X=a),P(Y=b)P(Y=b)Таким образом, вероятность связана только с одной случайной величиной.

соединять:

Совместное распределение может получить предельное распределение, но если известно только предельное распределение, совместное распределение получить невозможно.

2.1.8 Цепное правило условных вероятностей

Из определения условной вероятности непосредственно можно получить следующую формулу умножения: формула умноженияA,BA, Bдва события иP(A)>0P(A) > 0, то есть

P(AB)=P(BA)P(A)P(AB) = P(B|A)P(A)

продвигать

P(ABC)=P(CAB)P(BA)P(A)P(ABC)=P(C|AB)P(B|A)P(A)

В общем случае по индукции можно доказать, что еслиP(A1A2...An)>0P(A_1A_2...A_n)>0, то есть

P(A1A2...An)=P(AnA1A2...An1)P(An1A1A2...An2)...P(A2A1)P(A1)=P(A1)i=2nP(AiA1A2...Ai1)P(A_1A_2...A_n)=P(A_n|A_1A_2...A_{n-1})P(A_{n-1}|A_1A_2...A_{n-2})...P(A_2|A_1)P(A_1)\\ =P(A_1)\prod_{i=2}^{n}P(A_i|A_1A_2...A_{i-1})

Любое совместное распределение вероятностей многомерных случайных величин можно разложить в мультипликативную форму условных вероятностей только с одной переменной.

2.1.9 Независимость и условная независимость

независимостьдве случайные величиныxxиyy, распределение вероятности может быть выражено как произведение двух факторов, один фактор содержит толькоxx, другой фактор содержит толькоyy, то можно сказать, что две случайные величины независимы друг от друга. Условие иногда вносит независимость между независимыми событиями, а иногда исходно независимые события теряют свою независимость из-за существования этого условия.

Пример:P(XY)=P(X)P(Y)P(XY)=P(X)P(Y), событиеXXи событияYYнезависимый. данный в это времяZZ,

P(X,YZ)P(XZ)P(YZ)P(X,Y|Z) \not = P(X|Z)P(Y|Z)

Когда события независимы, их совместная вероятность равна произведению вероятностей. Это очень красивое математическое свойство, однако, к сожалению, безусловная независимость встречается очень редко, потому что большую часть времени события взаимодействуют друг с другом.

условная независимостьданныйZZв случае,XXиYYусловно независимым тогда и только тогда, когда

XYZ    P(X,YZ)=P(XZ)P(YZ)X\bot Y|Z \iff P(X,Y|Z) = P(X|Z)P(Y|Z)

XXиYYотношения зависят отZZ, а не генерируются напрямую.

ПримерОпределите следующие события:XX: завтра будет дождь;YY: Земля сегодня мокрая;ZZ: Сегодня идет дождь;ZZсоздание события, даXXиYYиметь влияние, однако, вZZСогласно предпосылке организации мероприятия, сегодняшние грунтовые условия не влияют на то, будет ли завтра дождь.

2.1.10 Общие формулы

Формулы, основанные на вероятностях

  • P(A+B)=P(A)+P(B)P(AB)P(A+B) = P(A)+P(B)-P(AB)
  • P(AB)=P(A)P(B)P(A-B)=P(A)-P(B)
  • P(AB)=P(A)P(BA)P(AB)=P(A)P(B|A)

полная вероятность

P(A)=iP(Bi)P(ABi)P(A) = \sum_i P(B_i)P(A|B_i)

байесовский

P(BA)=P(B)P(AB)P(A)P(B|A) = \frac{P(B)P(A|B)}{P(A)}

2.1.11 Применение

нарисовать мяч

n шаров, для розыгрыша с возвратом и без

  • Извлечение с заменой, извлечь m элементов и расположить их в ряд, найти количество различных перестановок:nmn^m

  • Извлечение без замены, извлечь m элементов подряд и найти количество различных перестановок:n!(nm)!\frac{n!}{(n-m)!}

2.2 Общие распределения вероятностей

2.2.1 Равномерное распределение

Равномерное распределение дискретных случайных величин: если предположить, что X имеет k значений, функция массы вероятности равномерного распределения будет:

p(X=xi)=1k,i=1,2,,kp(X=x_i) = \frac{1}{k},i=1,2,\cdots,k

Равномерное распределение непрерывных случайных величин: если предположить, что X равномерно распределено на [a, b], его функция плотности вероятности:

p(X=x)={0,x[a,b]1ba,xе[a,b]p(X=x) = \begin{cases} 0,x\notin[a,b]\\ \frac{1}{b-a},x\in[a, b] \end{cases}

2.2.1 Распределение Бернулли

Распределение Бернулли(Распределение Бернулли, распределение 0-1) — это однобинарное распределение случайной величины, один параметрф\phi∈ [0,1] управления,ф\phiДает вероятность того, что случайная величина равна 1. Основные свойства:

\begin{align*} P(x=1) &= \phi \\ P(x=0) &= 1-\phi \\ Функция массы вероятности: P(x=x) &= \phi^x(1 -\phi)^{1-x} \\ \end{align*}

Его ожидание и дисперсия:

\begin{align*} E_x[x] &= \phi \\ Var_x(x) &= \phi{(1-\phi)} \end{align*}

Область применения: Распределение Бернуллиподходит длядискретныйМоделирование случайных величин.

Распределение МультиноллиТакже известен какРаспределение по категориям, является сингломkЗначения распределяются случайным образом и часто используются для представленияРаспределение классификаций объектов. вkkконечнозначно, а распределение Мультинулли состоит из вектораpе[0,1]k1\vec{p}\in[0,1]^{k-1}параметризованный, каждый компонентpip_iозначает первыйiiвероятность состояния иpk=11Tpp_k=1-1^Tp.здесь1T1^TТранспонирование вектора-столбца, все элементы которого равны единицам, на самом деле представляет собой сумму вероятностей для вектора p, кроме k. можно переписать какpk=10k1pip_k=1-\sum_{0}^{k-1}p_i.

Дополнительное биномиальное распределение, полиномиальное распределение:

Биномиальное распределение, популярная точечная монета подбрасывается несколько раз. Биномиальное распределениеn повторный тест БернуллиДискретное распределение вероятностей количества успехов.

Определим вероятность успеха x раз как:f(x)=Cnxpx(1p)nx,xе0,1,,nf(x)=C_n^xp^x(1-p)^{n-x},x\in{0,1,\cdots,n}.

Ожидание np, дисперсия np(1-p)

Полиномиальное распределение является обобщением биномиального распределения. Биномиальная формула выполняет n экспериментов Бернулли, что означает, что для каждого эксперимента есть только два результата. сумма равна 1, то вероятность того, что один из исходов произойдет X раз, является полиномиальным распределением.

2.2.3 Гауссово распределение

Распределение Гаусса также называют нормальным распределением.(нормальное распределение) функция вероятности выглядит следующим образом:

N(x;мю,о2)=12число Пио2exp(12о2(xмю)2)N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}exp\left ( -\frac{1}{2\sigma^2}(x-\mu)^2 \right )

в,мю\muио\sigma- среднее значение и стандартное отклонение, соответственно, а координата x центрального пика определяется выражениеммю\muучитывая, что ширина пика ограниченао\sigmaконтроль, максимальный баллx=мюx=\muполученный в точке перегибаx=мю±оx=\mu\pm\sigma

В нормальном распределении ±1о\sigma, ±2о\sigma, ±3о\sigmaВероятность падения составляет 68,3%, 95,5% и 99,73% соответственно Эти три числа лучше всего запомнить.

Кроме того, пустьмю=0,о=1\mu=0,\sigma=1Распределение Гаусса упрощается до стандартного нормального распределения:

N(x;мю,о2)=12число Пиexp(12x2)N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi}}exp\left ( -\frac{1}{2}x^2 \right )

Эффективно оцените функцию плотности вероятности:

N(x;мю,бета1)=бета2число Пиexp(12бета(xмю)2)N(x;\mu,\beta^{-1})=\sqrt{\frac{\beta}{2\pi}}exp\left(-\frac{1}{2}\beta(x-\mu)^2\right)

в,бета=1о2\beta=\frac{1}{\sigma^2}по параметрубетае(0,)\бета∈(0, \infty)контролировать точность распределения.

2.2.4 Когда использовать нормальное распределение

В: Когда используется нормальное распределение?

Ответ: Отсутствие предварительных знаний о распределении действительных чисел, когда вы не знаете, какую форму выбрать,Вы никогда не ошибетесь с нормальным распределением по умолчанию, по следующим причинам:

  1. Центральная предельная теорема говорит нам,Многие независимые случайные величины распределены приблизительно нормально., в действительности многие сложные системы можно смоделировать как нормально распределенный шум, даже если систему можно структурно разложить.
  2. Нормальное распределение находится среди всех распределений вероятностей с одинаковой дисперсией,Распределение с наибольшей неопределенностью, другими словами,Нормальное распределение — это распределение, которое добавляет к модели наименьшие априорные знания..

Обобщение нормального распределения:

Нормальное распределение можно обобщить наRnR^nпространство, теперь называемоемногомерное нормальное распределение, параметром которой является положительно определенная симметричная матрицаΣ\Sigma:

N(x;мю,Σ)=1(2число Пи)ndet(Σ)exp(12(xмю)TΣ1(xмю))N(x;\vec\mu,\Sigma)=\sqrt{\frac{1}{(2\pi)^ndet(\Sigma)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\Sigma^{-1}(\vec{x}-\vec{\mu})\right)

Эффективно оцените плотность вероятности для преимущественно нормального распределения:

N(x;мю,бета1)=det(бета)(2число Пи)nexp(12(xмю)Tбета(xмю))N(x;\vec{\mu},\vec\beta^{-1}) = \sqrt{det(\vec\beta)}{(2\pi)^n}exp\left(-\frac{1}{2}(\vec{x}-\vec\mu)^T\beta(\vec{x}-\vec\mu)\right)

здесь,бета\vec\betaявляется матрицей точности.

2.2.5 Экспоненциальное распределение

В глубоком обучении экспоненциальное распределение используется для описанияx=0x=0Распределение граничных точек, полученных в точках, экспоненциальное распределение определяется следующим образом:

p(x;λ)=λIx0exp(λx)p(x;\lambda)=\lambda I_{x\geq 0}exp(-\lambda{x})

Индикаторная функция для экспоненциального распределенияIx0I_{x\geq 0}делатьxxВероятность принятия отрицательного значения равна нулю.

2.2.6 Распределение Лапласа (распределение Лапласа)

Тесно связанным с ним распределением вероятностей является распределение Лапласа, которое позволяет наммю\muУстанавливает пик вероятностной массы в

Laplace(x;мю;γ)=12γexp(xмюγ)Laplace(x;\mu;\gamma)=\frac{1}{2\gamma}exp\left(-\frac{|x-\mu|}{\gamma}\right)

ожиданиемю\mu, дисперсия2γ22\gamma^2

Распределение Лапласа более точное и уже, чем распределение Гаусса, и это свойство часто используется при регуляризации.

2.2.7 Распределение Пуассона

Предполагая, что среднее количество раз, когда событие происходит в единицу времени (или на единицу площади), равно λ, распределение Пуассона описывает вероятность того, что событие произойдет определенное количество раз в единицу времени (или на единицу площади), равное k. Функция плотности вероятности:

p(X=k;λ)=eλλkk!p(X=k;\lambda)=\frac{e^{-\lambda}\lambda^k}{k!}

ожиданиеλ\lambda, дисперсияλ\lambda.

2.2.8 Распределение Дирака и эмпирическое распределение

Распределение Дирака гарантирует, что вся масса в распределении вероятностей сосредоточена в одной точке. Дирак распределения Диракадельта\deltaфункция (также называемаяединичная импульсная функция) определяется следующим образом:

p(x)=дельта(xмю),xмюp(x)=\delta(x-\mu), x\neq \mu
abдельта(xмю)dx=1,a<мю<b\int_{a}^{b}\delta(x-\mu)dx = 1, a < \mu < b

Распределение Дирака часто используется какэмпирическое распределениепоявляется компонент (эмпирического распределения)

p^(x)=1mi=1mдельта(xx(i))\hat{p}(\vec{x})=\frac{1}{m}\sum_{i=1}^{m}\delta(\vec{x}-{\vec{x}}^{(i)})

Из них m балловx1,...,xmx^{1},...,x^{m}заданный набор данных,эмпирическое распределениеплотность вероятности1m\frac{1}{m}присваивается этим точкам.

Когда мы обучаем модель на обучающем наборе, можно считать, что эмпирическое распределение, полученное на этом обучающем наборе, указывает на то, чтоИсточник выборки.

Область применения: Дельта-функция Дирака подходит длянепрерывныйЭмпирическое распределение случайных величин.

Еще один важный момент в отношении эмпирического распределения заключается в том, что это функция плотности вероятности с наибольшей вероятностью обучающих данных.

2.2.9 Смешанное распределение

Также принято определять новые распределения вероятностей, комбинируя некоторые простые распределения вероятностей.

Обычный комбинированный методПостроить распределение смеси. Смешанный дистрибутив состоит из нескольких компонентных дистрибутивов.

Пример смешанного распределения: эмпирическое распределение вещественных переменных для каждого обучающего примера представляет собой смешанное распределение с распределениями Дирака в качестве компонентов.

смешанная модель— это простая стратегия объединения простых вероятностных распределений для получения более богатых. Очень мощной и распространенной смешанной моделью являетсяМодель гауссовой смеси.

Его компонентами являются распределения Гаусса, каждое со своими параметрами, средним значением и ковариационной матрицей.

2.3 Ожидание, дисперсия, ковариация, коэффициент корреляции

2.3.1 Ожидания

Математическое ожидание или ожидаемое значение функции f(x) по отношению к распределению P(x) — это среднее значение f(x), когда x генерируется P и f действует на x.

В теории вероятностей и статистике математическое ожидание (или среднее, также просто ожидание) — это вероятность каждого возможного исхода эксперимента, умноженная на сумму его исходов.Отражает размер среднего значения случайной величины.

  • Линейная операция:E(ax+by+c)=aE(x)+bE(y)+cE(ax+by+c) = aE(x)+bE(y)+c
  • Форма продвижения:E(k=1naixi+c)=k=1naiE(xi)+cE(\sum_{k=1}^{n}{a_ix_i+c}) = \sum_{k=1}^{n}{a_iE(x_i)+c}
  • Ожидание функции: пустьf(x)f(x)заxxфункция, тоf(x)f(x)ожидание
    • Дискретная функция:E(f(x))=k=1nf(xk)P(xk)E(f(x))=\sum_{k=1}^{n}{f(x_k)P(x_k)}
    • Непрерывная функция:E(f(x))=+f(x)p(x)dxE(f(x))=\int_{-\infty}^{+\infty}{f(x)p(x)dx}

Уведомление:

  • Математическое ожидание функции больше или равно ожидаемой функции (неравенство Дженсена, т.е.E(f(x))f(E(x))E(f(x))\geqslant f(E(x))
  • В общем, ожидание продукта не равно ожидаемому продукту.
  • еслиXXиYYнезависимо друг от друга, тоE(xy)=E(x)E(y)E(xy)=E(x)E(y).

2.3.2 Дисперсия

В теории вероятностей дисперсия используется дляИзмеряет, насколько случайная величина отклоняется от своего математического ожидания (т.е. среднего). Дисперсия — это особый вид ожидания. определяется как:

Var(x)=E((xE(x))2)Var(x) = E((x-E(x))^2)

Свойства дисперсии:

1)Var(x)=E(x2)E(x)2Var(x) = E(x^2) -E(x)^22) дисперсия константы равна 0; 3) Дисперсия не удовлетворяет линейному свойству; 4) ЕслиXXиYYНезависимый,Var(ax+by)=a2Var(x)+b2Var(y)Var(ax+by)=a^2Var(x)+b^2Var(y)

2.3.3 Ковариация

Ковариация — это мера силы линейной корреляции между двумя переменными и шкалой переменной.. Ковариация двух случайных величин определяется как:

Cov(x,y)=E((xE(x))(yE(y)))Cov(x,y)=E((x-E(x))(y-E(y)))

Дисперсия - это особый вид ковариации. когдаX=YX=Yчас,Cov(x,y)=Var(x)=Var(y)Cov(x,y)=Var(x)=Var(y).

Ковариационные свойства:

1) Ковариация независимых переменных равна 0. 2) Формула расчета ковариации:

Cov(i=1maixi,j=1mbjyj)=i=1mj=1maibjCov(xiyi)Cov(\sum_{i=1}^{m}{a_ix_i}, \sum_{j=1}^{m}{b_jy_j}) = \sum_{i=1}^{m} \sum_{j=1}^{m}{a_ib_jCov(x_iy_i)}

3) Особые обстоятельства:

Cov(a+bx,c+dy)=bdCov(x,y)Cov(a+bx, c+dy) = bdCov(x, y)

2.3.4 Коэффициент корреляции

Коэффициент корреляции – это мера степени линейной корреляции между изучаемыми переменными.. Коэффициент корреляции двух случайных величин определяется как:

Corr(x,y)=Cov(x,y)Var(x)Var(y)Corr(x,y) = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}}

Свойства коэффициента корреляции: 1) Ограниченность. Диапазон значений коэффициента корреляции составляет [-1,1], что можно рассматривать как безразмерную ковариацию. 2) Чем ближе значение к 1, тем сильнее положительная корреляция (линейная) между двумя переменными. Чем он ближе к -1, тем сильнее отрицательная корреляция, а когда он равен 0, это означает, что между двумя переменными нет корреляции.

2.4 Теория информации

Основное исследование теории информации состоит в том, чтобы количественно определить, сколько нового содержит сигнал.

Основная идея теории информации заключается в том, что маловероятное событие действительно происходит, предоставляя больше информации, чем очень вероятное событие.

Если вы хотите количественно оценить информацию с помощью этой базовой идеи, вам необходимо выполнить следующие 3 свойства:

  • Очень вероятные события менее информативны, а в крайних случаях события, которые гарантированно произойдут, не должны быть информативными;
  • Менее вероятные события содержат больше информации;
  • Независимые события должны иметь дополнительную информацию. Например, два броска монеты должны нести в два раза больше информации, чем орёл при подбрасывании монеты.

Здесь определяет событие x=xxизинформация о себеза:

I(x)=logP(x)I(x) = -log P(x)

Самоинформативные могут обрабатывать только один вывод. Можно использоватьЭнтропия Шеннонадля количественной оценки общего количества неопределенности во всем распределении вероятностей:

H(x)=ExP[I(x)]=ExP[logP(x)]H(x) = -E_{x\sim P}[I(x)] = -E_{x\sim P}[logP(x)]

Также обозначается как H(P). Здесь E представляет ожидания, то есть энтропия Шеннона распределения относится к событиям, которые следуют за этим распределением.Ожидаемый объем информации.

И если есть два отдельных распределения вероятностей P(x) и Q(x) для случайной величины, то можно использоватьKL-расхождениечтобы измерить разницу между этими двумя распределениями:

DKL(PQ)=ExP[logP(x)logQ(x)]=ExP[logP(x)logQ(x)]D_{KL}(P||Q) = E_{x\sim P}[\frac{logP(x)}{logQ(x)}] = E_{x\sim P}[logP(x)-logQ(x)]

Пример: для энтропии Шеннона бинарного случайного распределенияH(x)=(1p)log(1p)plogpH(x) =- (1-p)log(1-p)-plogp

Свойства дивергенции KL:

  1. неотрицательный;
  2. Дивергенция KL равна 0 тогда и только тогда, когда P и Q являются одним и тем же распределением в случае дискретных переменных или одним и тем же «почти везде» в случае непрерывных переменных;
  3. Часто используется для измерения некоторого расстояния между распределениями, но не совсем потому, что оно несимметрично.

Очень похоже на дивергенцию KL:перекрестная энтропия,СейчасH(P,Q)=H(P)+DKL(PQ)H(P,Q)=H(P)+D_{KL}(P||Q):

H(P,Q)=ExPlogQ(x)H(P,Q)=-E_{x\sim P}logQ(x)

Минимизация кросс-энтропии для Q эквивалентна минимизации дивергенции KL, поскольку Q не участвует в опущенном члене.

При вычислении этих величин часто встречается выражение 0log0, обработка которого, как правило,limx>0xlogx=0lim_{x->0}xlogx = 0


Добро пожаловать, чтобы обратить внимание на мой общедоступный номер--Примечания к алгоритму ИИчтобы получить больше заметок по алгоритму ИИ и заметок о чтении бумаги.