19-20 (1.2.2 Ожидание и ковариация)

искусственный интеллект

1.2.2 Ожидание и ковариация

   Одной из наиболее важных операций, связанных с вероятностью, является получение средневзвешенного значения функции. Распределения вероятностейp(x)p(x)некоторые функции подf(x)f(x)Среднее значение называетсяf(x)f(x)Ожидаемая стоимость, использованиеE[f]E[f]Выражать. Для дискретных распределений это определяется выражением

E[f]=xp(x)f(x)(1.33)E[f]=\sum_xp(x)f(x)\tag{1.33}

Таким образом, среднее значение определяетсяxxВеса относительных вероятностей различных значений . В случае непрерывных переменных ожидаемое значение выражается в виде интеграла по соответствующей плотности вероятности

E[f]=p(x)f(x)dx(1.34)E[f]=\int p(x)f(x)dx\tag{1.34}

В обоих случаях, если мы получим из распределения вероятностей или плотности вероятности конечное числоNNбаллов, то ожидаемое значение можно аппроксимировать как конечную сумму этих баллов

E[f]1Nn=1Nf(xn)(1.35)E[f]\simeq \frac{1}{N}\sum_{n=1}^Nf(x_n)\tag{1.35}

Мы будем широко использовать этот результат при обсуждении методов выборки в главе 11. Аппроксимация в (1.35) находится в пределеNN\rightarrow\inftyстать точным внутри.

   Иногда мы рассматриваем ожидаемое значение функции нескольких переменных, и в этом случае мы можем использовать нижний индекс, чтобы указать, какая переменная усредняется, например.

Ex[f(x,y)](1.36)E_x[f(x,y)]\tag{1.36}

Функция представленияf(x,y)f(x,y)относительноxxсреднее значение распределения. Уведомление,Ex[f(x,y)]E_x[f(x,y)]будетyyФункция.

   Мы также можем рассмотреть условные ожидания на условных распределениях, такие что

Ex[f(y)]=xp(xy)f(x)(1.37)E_x[f(y)]=\sum_xp(x|y)f(x)\tag{1.37}

Аналогичное определение для непрерывных переменных.

  f(x)f(x)Дисперсия определяется как

var[f]=E[(f(x)E[f(x)])2](1.38)var[f]=E[(f(x)-E[f(x)])^2]\tag{1.38}

и обеспечивает измерение, а именноf(x)f(x)в среднемE[f(x)]E[f(x)]Как много изменилось вокруг. Развернув квадрат, мы видим, что дисперсию можно использовать и сf(x)f(x)иf(x)2f(x)^2ожидаемая стоимость

var[f]=E[f(x)2]E[f(x)]2(1.39)var[f]=E[f(x)^2]-E[f(x)]^2\tag{1.39}

В частности, мы можем рассмотреть переменнуюxxсама дисперсия, которая определяется

var[x]=E[x2]E[x]2(1.40)var[x]=E[x^2]-E[x]^2\tag{1.40}

   Для двух случайных величинxxиyy, ковариация определяется следующим образом:

cov[x,y]=Ex,y[{xE[x]}{yE[y]}]=Ex,y[xy]E[x]E[y](1.41)cov[x,y]=E_{x,y}[\{x-E[x]\}\{y-E[y]\}]=E_{x,y}[xy]-E[x]E[y]\tag{1.41}

выражатьxxиyyстепень изменения вместе. еслиxxиyyнезависимы, то их ковариантность исчезает.

   в случайных величинахxxиyyВ случае двух векторов ковариация представляет собой матрицу

cov[x,y]=Ex,y[{xE[x]}{yTE[yT]}]=Ex,y[xyT]E[x]E[yT](1.42)cov[x,y]=E_{x,y}[\{x-E[x]\}\{y^T-E[y^T]\}]=E_{x,y}[xy^T]-E[x]E[y^T]\tag{1.42}

Если мы рассмотрим векторxxковариация между компонентами , то мы используем немного более простое обозначениеcov[x]cov[x,x]cov[x]\equiv cov[x,x].