(Страница:12-17) 1.2 Теория вероятностей

искусственный интеллект

1.2 Теория вероятностей

Ключевым понятием в области распознавания образов является неопределенность. Это возникает из-за шума в измерениях и ограниченного размера набора данных. Теория вероятностей обеспечивает последовательную основу для количественной оценки и обработки неопределенности и формирует одну из основных основ распознавания образов. В сочетании с решениями, обсуждаемыми в разделе 1.5 «Партизан», это позволяет нам делать наилучшие прогнозы с учетом всей доступной информации, даже если эта информация может быть неполной или неясной.

   Познакомим с основными понятиями теории вероятностей на простом примере. Предположим, у нас есть две коробки, одна красная и одна синяя, в красной коробке 2 яблока и 6 апельсинов, а в синей коробке 3 яблока и апельсин. Это показано на рис. 1.9. Теперь предположим, что мы выбираем одну из коробок наугад, затем случайным образом выбираем фрукт из коробки, и, увидев, какой это фрукт, мы заменяем его коробкой, из которой он был взят. Мы можем представить себе повторение этого процесса несколько раз. Предположим, что при этом мы выбираем красную коробку в 40% случаев и синюю коробку в 60% случаев, и когда мы берем фрукт из коробки, мы с равной вероятностью выбираем любой фрукт из коробки. коробка.

Рисунок 1.9. Мы вводим основное понятие вероятности на простом примере, двух цветных коробках, каждая из которых содержит фрукты (яблоки показаны зеленым цветом, а апельсины — оранжевым).

figure_1.9.png

   В этом примере идентификатор ящика, который будет выбран, является случайной величиной, мы будем использоватьBBВыражать. Эта случайная величина может принимать одно из двух возможных значений, а именноrr(соответствует красной рамке) илиbb(соответствует синей рамке). Точно так же идентичность фрукта также является случайной величиной, используяFFВыражать. он может использоватьaa(яблоко) илиoo(оранжевый) любое значение.

   Во-первых, мы определяем вероятность события как долю числа событий, происходящих от общего числа испытаний, с учетом бесконечного предела общего числа испытаний. Следовательно, вероятность выбора красного цвета равна4/104/10, вероятность выбора синего ящика равна6/106/10. Запишем эти вероятности какp(B=r)=4/10p(B=r)=4/10иp(B=b)=6/10p(B=b)=6/10. Обратите внимание, что по определению вероятность должна находиться в интервале[0,1][0,1]Внутри. Кроме того, если события взаимоисключающие и если они включают все возможные исходы (например, в этом случае ящик должен быть красным или синим), то вероятность того, что мы увидим эти события, всегда должна быть равна 1.

   Теперь мы можем задать такие вопросы, как: «Какова общая вероятность того, что программа выбора выберет яблоко?» или «Если мы выберем апельсин, какова вероятность того, что выбранная нами коробка будет синей?». Как только мы овладеем двумя основными правилами вероятности, правилом суммы и правилом произведения, мы сможем ответить на подобные вопросы и даже на более сложные вопросы, связанные с проблемами распознавания образов. Имея в руках эти правила, мы вернемся к нашему примеру с коробкой с фруктами.

   Чтобы вывести правила для вероятности, рассмотрим две случайные величины, представленные на рис. 1.10.XXиYYБолее общий пример (например, переменные блока и фруктов, упомянутые выше). мы предполагаем, чтоXXможет принимать любое значениеxix_ii=1,...,Mi=1,...,M,YYможет принимать значениеyjy_jj=1,...,Lj=1,...,L. рассмотреть общееNNВ эксперименте у нас есть переменнаяXXиYYобразец и пустьX=xiX=x_iиY=yjY=y_jзаnijn_{ij}количество таких экспериментов. Аналогично, пустьXXценностьxix_iYYзначение не имеет значения) количество экспериментов сcic_iзначит, аналогично, пустьYYценностьyjy_jколичество испытаний дляrjr_jВыражать.

Рисунок 1.10 Мы можем рассмотреть две случайные величины с Запретным городомXXвывести правило суммы-произведения для вероятностей,XXценность{xi}\{x_i\}i=1,...,Mi=1,...,M,YYценность{yj}\{y_j\}j=1,...,Lj=1,...,LНа этой схеме имеемM=5M=5иL=3L=3. Если мы рассмотрим общее количество экземпляров этих переменныхNN, то выражаемX=xiX=x_iиY=yjY=y_jпройти черезnijn_{ij}Количество экземпляров , то есть количество точек в соответствующей ячейке массива. СписокiiКоличество точек в , соответствующихX=xiX=x_i,Зависит отcic_iуказывает, а строкаjjКоличество точек в , соответствующихY=yjY=y_j,Зависит отRjR_jВыражать.

figure_1_10.png

  XXценностьxix_iиYYценностьyjy_jнаписаноp(X=xi,Y=yj)p(X=x_i,Y=y_j)значение, становитсяX=xiX=x_iиY=yiY=y_iсовместная вероятность . это сделаноi,ji,jбаллов как часть общего количества баллов, поэтому

p(X=xi,Y=yj)=nijN(1.5)p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}\tag{1.5}

Здесь мы неявно рассматриваем пределNN\rightarrow \infty. похожи, независимо отYYВ чем ценность,XXценностьxix_iВероятность записывается какp(X=xi)p(X=x_i), и поiiДана доля общего количества баллов в столбце, поэтому

p(X=xi)=ciN(1.6)p(X=x_i)=\frac{c_i}{N}\tag{1.6}

Поскольку на рис. 1.10iiКоличество экземпляров в столбце — это просто сумма количества экземпляров в каждой ячейке этого столбца, поэтому мы имеемci=jnijc_i=\sum _jn_{ij}, поэтому из (1.5) и (1.6) имеем

p(X=xi)=j=1Lp(X=xi,Y=yj)(1.7)p(X=x_i)=\sum^L_{j=1}p(X=x_i,Y=y_j)\tag{1.7}

Это вероятностное правило сумм. Уведомление,p(X=xi)p(X=x_i)иногда называется предельной вероятностью, потому что она вычисляется путем маргинализации или суммирования других переменных (в данном случаеYY) в собственности.

   Если рассматривать толькоX=xiX=x_i, то оценка такого экземпляра равнаY=yjY=y_jнаписано какp(Y=yjX=xi)p(Y=y_j|X=x_i), и называетсяY=yjY=y_jданныйX=xiX=x_iусловная вероятность . найдя первыйiiстолбец принадлежит ячейкеi,ji,jСчет очков получается, поэтому

p(X=xiY=yj)=nijci(1.8)p(X=x_i|Y=y_j)=\frac{n_{ij}}{c_i}\tag{1.8}

Учитывая (1.5), (1.6), (1.8), мы можем получить следующее соотношение

p(X=xi,Y=yj)=nijN=nijciciN=p(Y=yjX=xi)p(X=xi)(1.9)p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}=\frac{n_{ij}}{c_i}\cdot \frac{c_i}{N}=p(Y=y_j|X=x_i)p(X=x_i)\tag{1.9}

Это произведение вероятностного правила.

   До сих пор мы очень тщательно проводили различие между случайными переменными, такими как коробка в примере с фруктами.BB, и значения, которые может принимать случайная величина, например, если поле красное, тоrr. следовательно,BBценностьrrВероятность выражается какp(B=r)p(B=r). Хотя это помогает избежать двусмысленности, но приводит к довольно громоздкой нотации, и во многих случаях такая педантичность не нужна. Вместо этого мы можем просто написатьp(B)p(B)для представления случайных величинBBраспространение на , илиp(r)p(r)для представления определенного значенияrrРасчетное распределение при условии, что интерпретация в контексте ясна.

  С помощью этих более компактных обозначений мы можем записать два основных правила теории вероятностей в следующей форме.

The Rules of Probability

​ правило суммированияp(X)=Yp(X,Y)p(X)=\sum_Yp(X,Y)             (1.10)

Правило продуктаp(X,Y)=p(YX)p(X)p(X,Y)=p(Y|X)p(X)             (1.11)

здесьp(X,Y)p(X,Y)представляет собой совместную вероятность, используя "XXиYYПредставление «вероятность». Аналогично, количествоp(YX)p(Y|X)представляет собой условную вероятность, выраженную как «данныеXXизYYвероятность», а количествоp(X)p(X)является предельной вероятностью, просто "XXВероятность ". Эти два простых правила составляют основу всех вероятностных механизмов, которые мы используем в этой книге.

  Согласно правилу произведения в сочетании с симметриейp(X,Y)=p(Y,X)p(X,Y)=p(Y,X), сразу получаем условную вероятность

p(YX)=p(XY)p(Y)p(X)(1.12)p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)}\tag{1.12}

Связь между теоремой Байеса играет ключевую роль в идентификации закономерностей и машинном обучении. Использование запроса и формулы, знаменатель в теореме Байеса может использовать молекулы

p(X)=Yp(XY)p(Y)(1.13)p(X)=\sum_Yp(X|Y)p(Y)\tag{1.13}

представлено количеством, появляющимся в . Мы можем рассматривать знаменатель в теореме Байеса как нормирующую константу, чтобы убедиться, что условная вероятность в левой части (1.12) такая же, какYYСумма всех значений равна 1.

   На рис. 1.11 мы показываем простой пример совместного распределения двух переменных, чтобы проиллюстрировать концепции предельного и условного распределений. Кроме того, извлеченные из совместного распределенияN=60N=60Конечная выборка точек данных, показанная в левом нижнем углу. два в правом верхнем углуYYГистограмма оценок точек данных с одним значением для каждой. По определению вероятности эти дроби равны пределуNNСоответствующая вероятность вp(Y)p(Y)\rightarrow \infty. Мы можем думать о гистограмме как о простом способе моделирования распределения вероятностей, если из этого распределения берется конечное число точек. Моделирование распределений на основе данных лежит в основе распознавания статистических закономерностей, которое подробно рассматривается в этой книге. Остальные два рисунка на рис. 1.11 показываютp(X)p(X)иp(XY=1)p(X|Y=1)Соответствующие гистограммные оценки .

Рисунок 1.11 График распределения двух переменных,XXВозьмите девять возможных значений,YYПринимает два возможных значения. На верхней левой панели показана выборка из 60 точек, полученных из совместного распределения вероятностей этих переменных. Остальные графики показывают предельное распределениеp(X)p(X)иp(Y)p(Y)Оценка гистограммы и условное распределение, соответствующее строке th на верхнем левом графикеp(XY=1)p(X|Y=1).

figure_1_11.png

Теперь вернемся к нашему примеру с ящиками для фруктов. В настоящее время мы еще раз будем четко различать случайные величины и примеры. Мы видели, что вероятность выбора красного или синего ящика равна

p(B=r)=4/10(1.14)p(B=r)=4/10\tag{1.14}
p(B=b)=6/10(1.15)p(B=b)=6/10\tag{1.15}

данный. Обратите внимание, что они удовлетворяютp(B=r)+p(B=b)=1p(B=r)+p(B=b)=1.

   Теперь предположим, что мы выбираем коробку наугад, и в результате получается синяя коробка. Тогда вероятность выбора яблока равна доле яблока в синем ящике, т.е.3/43/4. следовательноp(F=aB=b)=3/4p(F=a|B=b)=3/4. На самом деле, мы можем записать все четыре условные вероятности для типа фруктов, опять же учитывая выбранный ящик.

p(F=aB=r)=1/4(1.16)p(F=a|B=r)=1/4\tag{1.16}
p(F=oB=r)=3/4(1.17)p(F=o|B=r)=3/4\tag{1.17}
p(F=aB=b)=3/4(1.18)p(F=a|B=b)=3/4\tag{1.18}
p(F=oB=b)=1/4(1.19)p(F=o|B=b)=1/4\tag{1.19}

Обратите внимание, что эти вероятности нормированы, поэтому

p(F=aB=r)+p(F=oB=r)=1(1.20)p(F=a|B=r)+p(F=o|B=r)=1\tag{1.20}

и подобные

p(F=aB=b)+p(F=oB=b)=1(1.21)p(F=a|B=b)+p(F=o|B=b)=1\tag{1.21}

Теперь мы можем использовать правило суммы-произведения вероятностей, чтобы оценить общую вероятность того, что мы сорвем яблоко.

p(F=a)=p(F=aB=r)p(B=r)+p(F=aB=b)p(B=b)=14×410+34×610=1120(1.22)p(F=a)=p(F=a|B=r)p(B=r)+p(F=a|B=b)p(B=b)=\frac{1}{4}\times\frac{4}{10}+\frac{3}{4}\times\frac{6}{10}=\frac{11}{20}\tag{1.22}

Согласно правилу суммирования,p(F=o)=111/20=9/20p(F=o)=1-11/20=9/20.

   Вместо этого предположим, что наш ответчик, как известно, выбрал фрукт, то есть апельсин, и мы хотим знать, из какой коробки он был взят. Это требует, чтобы мы оценили распределение вероятностей по ящику, обусловленное идентичностью фруктов, а вероятности в (1.16)-(1.19) дают распределение вероятностей по фруктам, обусловленное идентичностью ящика. Мы можем решить проблему обращения условной вероятности, используя теорему Байеса, что дает

p(B=rF=o)=p(F=oB=r)p(B=r)p(F=o)=34×410×209=23(1.23)p(B=r|F=o)=\frac{p(F=o|B=r)p(B=r)}{p(F=o)}=\frac{3}{4}\times\frac{4}{10}\times\frac{20}{9}=\frac{2}{3}\tag{1.23}

Согласно правилу суммирования,p(B=bF=o)=12/3=1/3p(B=b|F=o)=1-2/3=1/3.

   Мы можем сделать следующую важную интерпретацию теоремы Байеса. Если бы нас спросили, какая коробка была выбрана, прежде чем нам сказали бы, какой фрукт выбран, наиболее полной информацией, которую мы могли бы получить, была бы вероятностьp(B)p(B). Мы называем это априорной вероятностью, потому что это вероятность, доступная до того, как мы наблюдаем свойства плода. Как только нам говорят, что фрукт — апельсин, мы можем использовать теорему Байеса для вычисления вероятностиp(BF)p(B|F), которую мы называем апостериорной вероятностью. Обратите внимание, что в этом примере априорная вероятность выбора красного ящика составляет 4/10, поэтому мы с большей вероятностью выберем синий ящик, чем красный. Однако, как только мы заметим, что выбранный фрукт оранжевый, мы обнаружим, что апостериорная вероятность красного ящика теперь равна 2/3, поэтому ящик, который мы теперь с большей вероятностью выберем, на самом деле красный. Этот результат согласуется с нашей интуицией, поскольку доля апельсинов в красном ящике намного выше, чем в синем ящике, поэтому наблюдаемый оранжевый фрукт является важным доказательством в поддержку ящика, да, вместо него был выбран красный ящик. синего ящика Скорее всего.

   Наконец, заметим, что если совместное распределение двух переменных разложить на произведение полей, такое чтоp(X,Y)=p(X)p(Y)p(X,Y)=p(X)p(Y),ТакXXиYYназывается независимым. Из правила произведения мы видимp(YX)=p(Y)p(Y|X)=p(Y), так даноXXизYYУсловное распределение действительно такое же, какXXзначение не имеет значения. Например, в нашем примере с фруктами и, если в каждой коробке содержится одинаковая доля яблок и апельсинов, тоp(FB)=P(F)p(F|B)=P(F), поэтому вероятность выбора, скажем, яблока не зависит от того, какая коробка выбрана.