(Страница:12-17) 1.2 Теория вероятностей

1.2 Теория вероятностей

Ключевым понятием в области распознавания образов является неопределенность. Это возникает из-за шума в измерениях и ограниченного размера набора данных. Теория вероятностей обеспечивает последовательную основу для количественной оценки и обработки неопределенности и формирует одну из основных основ распознавания образов. В сочетании с решениями, обсуждаемыми в разделе 1.5 «Партизан», это позволяет нам делать наилучшие прогнозы с учетом всей доступной информации, даже если эта информация может быть неполной или неясной.

Познакомим с основными понятиями теории вероятностей на простом примере. Предположим, у нас есть две коробки, одна красная и одна синяя, в красной коробке 2 яблока и 6 апельсинов, а в синей коробке 3 яблока и апельсин. Это показано на рис. 1.9. Теперь предположим, что мы выбираем одну из коробок наугад, затем случайным образом выбираем фрукт из коробки, и, увидев, какой это фрукт, мы заменяем его коробкой, из которой он был взят. Мы можем представить себе повторение этого процесса несколько раз. Предположим, что при этом мы выбираем красную коробку в 40% случаев и синюю коробку в 60% случаев, и когда мы берем фрукт из коробки, мы с равной вероятностью выбираем любой фрукт из коробки. коробка.

Рисунок 1.9. Мы вводим основное понятие вероятности на простом примере, двух цветных коробках, каждая из которых содержит фрукты (яблоки показаны зеленым цветом, а апельсины — оранжевым).

В этом примере идентификатор ящика, который будет выбран, является случайной величиной, мы будем использовать $B$ Выражать. Эта случайная величина может принимать одно из двух возможных значений, а именно $r$ (соответствует красной рамке) или $b$ (соответствует синей рамке). Точно так же идентичность фрукта также является случайной величиной, используя $F$ Выражать. он может использовать $a$ (яблоко) или $o$ (оранжевый) любое значение.

Во-первых, мы определяем вероятность события как долю числа событий, происходящих от общего числа испытаний, с учетом бесконечного предела общего числа испытаний. Следовательно, вероятность выбора красного цвета равна $4/10$ , вероятность выбора синего ящика равна $6/10$ . Запишем эти вероятности как $p(B=r)=4/10$ и $p(B=b)=6/10$ . Обратите внимание, что по определению вероятность должна находиться в интервале $[0,1]$ Внутри. Кроме того, если события взаимоисключающие и если они включают все возможные исходы (например, в этом случае ящик должен быть красным или синим), то вероятность того, что мы увидим эти события, всегда должна быть равна 1.

Теперь мы можем задать такие вопросы, как: «Какова общая вероятность того, что программа выбора выберет яблоко?» или «Если мы выберем апельсин, какова вероятность того, что выбранная нами коробка будет синей?». Как только мы овладеем двумя основными правилами вероятности, правилом суммы и правилом произведения, мы сможем ответить на подобные вопросы и даже на более сложные вопросы, связанные с проблемами распознавания образов. Имея в руках эти правила, мы вернемся к нашему примеру с коробкой с фруктами.

Чтобы вывести правила для вероятности, рассмотрим две случайные величины, представленные на рис. 1.10. $X$ и $Y$ Более общий пример (например, переменные блока и фруктов, упомянутые выше). мы предполагаем, что $X$ может принимать любое значение $x_i$ ,в $i=1,...,M$ , $Y$ может принимать значение $y_j$ ,в $j=1,...,L$ . рассмотреть общее $N$ В эксперименте у нас есть переменная $X$ и $Y$ образец и пусть $X=x_i$ и $Y=y_j$ за $n_{ij}$ количество таких экспериментов. Аналогично, пусть $X$ ценность $x_i$ (и $Y$ значение не имеет значения) количество экспериментов с $c_i$ значит, аналогично, пусть $Y$ ценность $y_j$ количество испытаний для $r_j$ Выражать.

Рисунок 1.10 Мы можем рассмотреть две случайные величины с Запретным городом $X$ вывести правило суммы-произведения для вероятностей, $X$ ценность $\{x_i\}$ ,в $i=1,...,M$ , $Y$ ценность $\{y_j\}$ ,в $j=1,...,L$ На этой схеме имеем $M=5$ и $L=3$ . Если мы рассмотрим общее количество экземпляров этих переменных $N$ , то выражаем $X=x_i$ и $Y=y_j$ пройти через $n_{ij}$ Количество экземпляров , то есть количество точек в соответствующей ячейке массива. Список $i$ Количество точек в , соответствующих $X=x_i$ ,Зависит от $c_i$ указывает, а строка $j$ Количество точек в , соответствующих $Y=y_j$ ,Зависит от $R_j$ Выражать.

$X$ ценность $x_i$ и $Y$ ценность $y_j$ написано $p(X=x_i,Y=y_j)$ значение, становится $X=x_i$ и $Y=y_i$ совместная вероятность . это сделано $i,j$ баллов как часть общего количества баллов, поэтому

p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}\tag{1.5}

Здесь мы неявно рассматриваем предел $N\rightarrow \infty$ . похожи, независимо от $Y$ В чем ценность, $X$ ценность $x_i$ Вероятность записывается как $p(X=x_i)$ , и по $i$ Дана доля общего количества баллов в столбце, поэтому

p(X=x_i)=\frac{c_i}{N}\tag{1.6}

Поскольку на рис. 1.10 $i$ Количество экземпляров в столбце — это просто сумма количества экземпляров в каждой ячейке этого столбца, поэтому мы имеем $c_i=\sum _jn_{ij}$ , поэтому из (1.5) и (1.6) имеем

p(X=x_i)=\sum^L_{j=1}p(X=x_i,Y=y_j)\tag{1.7}

Это вероятностное правило сумм. Уведомление, $p(X=x_i)$ иногда называется предельной вероятностью, потому что она вычисляется путем маргинализации или суммирования других переменных (в данном случае $Y$ ) в собственности.

Если рассматривать только $X=x_i$ , то оценка такого экземпляра равна $Y=y_j$ написано как $p(Y=y_j|X=x_i)$ , и называется $Y=y_j$ данный $X=x_i$ условная вероятность . найдя первый $i$ столбец принадлежит ячейке $i,j$ Счет очков получается, поэтому

p(X=x_i|Y=y_j)=\frac{n_{ij}}{c_i}\tag{1.8}

Учитывая (1.5), (1.6), (1.8), мы можем получить следующее соотношение

p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}=\frac{n_{ij}}{c_i}\cdot \frac{c_i}{N}=p(Y=y_j|X=x_i)p(X=x_i)\tag{1.9}

Это произведение вероятностного правила.

До сих пор мы очень тщательно проводили различие между случайными переменными, такими как коробка в примере с фруктами. $B$ , и значения, которые может принимать случайная величина, например, если поле красное, то $r$ . следовательно, $B$ ценность $r$ Вероятность выражается как $p(B=r)$ . Хотя это помогает избежать двусмысленности, но приводит к довольно громоздкой нотации, и во многих случаях такая педантичность не нужна. Вместо этого мы можем просто написать $p(B)$ для представления случайных величин $B$ распространение на , или $p(r)$ для представления определенного значения $r$ Расчетное распределение при условии, что интерпретация в контексте ясна.

С помощью этих более компактных обозначений мы можем записать два основных правила теории вероятностей в следующей форме.

The Rules of Probability

правило суммирования $p(X)=\sum_Yp(X,Y)$ (1.10)

Правило продукта $p(X,Y)=p(Y|X)p(X)$ (1.11)

здесь $p(X,Y)$ представляет собой совместную вероятность, используя " $X$ и $Y$ Представление «вероятность». Аналогично, количество $p(Y|X)$ представляет собой условную вероятность, выраженную как «данные $X$ из $Y$ вероятность», а количество $p(X)$ является предельной вероятностью, просто " $X$ Вероятность ". Эти два простых правила составляют основу всех вероятностных механизмов, которые мы используем в этой книге.

Согласно правилу произведения в сочетании с симметрией $p(X,Y)=p(Y,X)$ , сразу получаем условную вероятность

p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)}\tag{1.12}

Связь между теоремой Байеса играет ключевую роль в идентификации закономерностей и машинном обучении. Использование запроса и формулы, знаменатель в теореме Байеса может использовать молекулы

p(X)=\sum_Yp(X|Y)p(Y)\tag{1.13}

представлено количеством, появляющимся в . Мы можем рассматривать знаменатель в теореме Байеса как нормирующую константу, чтобы убедиться, что условная вероятность в левой части (1.12) такая же, как $Y$ Сумма всех значений равна 1.

На рис. 1.11 мы показываем простой пример совместного распределения двух переменных, чтобы проиллюстрировать концепции предельного и условного распределений. Кроме того, извлеченные из совместного распределения $N=60$ Конечная выборка точек данных, показанная в левом нижнем углу. два в правом верхнем углу $Y$ Гистограмма оценок точек данных с одним значением для каждой. По определению вероятности эти дроби равны пределу $N$ Соответствующая вероятность в $p(Y)\rightarrow \infty$ . Мы можем думать о гистограмме как о простом способе моделирования распределения вероятностей, если из этого распределения берется конечное число точек. Моделирование распределений на основе данных лежит в основе распознавания статистических закономерностей, которое подробно рассматривается в этой книге. Остальные два рисунка на рис. 1.11 показывают $p(X)$ и $p(X|Y=1)$ Соответствующие гистограммные оценки .

Рисунок 1.11 График распределения двух переменных, $X$ Возьмите девять возможных значений, $Y$ Принимает два возможных значения. На верхней левой панели показана выборка из 60 точек, полученных из совместного распределения вероятностей этих переменных. Остальные графики показывают предельное распределение $p(X)$ и $p(Y)$ Оценка гистограммы и условное распределение, соответствующее строке th на верхнем левом графике $p(X|Y=1)$ .

Теперь вернемся к нашему примеру с ящиками для фруктов. В настоящее время мы еще раз будем четко различать случайные величины и примеры. Мы видели, что вероятность выбора красного или синего ящика равна

p(B=r)=4/10\tag{1.14}

p(B=b)=6/10\tag{1.15}

данный. Обратите внимание, что они удовлетворяют $p(B=r)+p(B=b)=1$ .

Теперь предположим, что мы выбираем коробку наугад, и в результате получается синяя коробка. Тогда вероятность выбора яблока равна доле яблока в синем ящике, т.е. $3/4$ . следовательно $p(F=a|B=b)=3/4$ . На самом деле, мы можем записать все четыре условные вероятности для типа фруктов, опять же учитывая выбранный ящик.

p(F=a|B=r)=1/4\tag{1.16}

p(F=o|B=r)=3/4\tag{1.17}

p(F=a|B=b)=3/4\tag{1.18}

p(F=o|B=b)=1/4\tag{1.19}

Обратите внимание, что эти вероятности нормированы, поэтому

p(F=a|B=r)+p(F=o|B=r)=1\tag{1.20}

и подобные

p(F=a|B=b)+p(F=o|B=b)=1\tag{1.21}

Теперь мы можем использовать правило суммы-произведения вероятностей, чтобы оценить общую вероятность того, что мы сорвем яблоко.

p(F=a)=p(F=a|B=r)p(B=r)+p(F=a|B=b)p(B=b)=\frac{1}{4}\times\frac{4}{10}+\frac{3}{4}\times\frac{6}{10}=\frac{11}{20}\tag{1.22}

Согласно правилу суммирования, $p(F=o)=1-11/20=9/20$ .

Вместо этого предположим, что наш ответчик, как известно, выбрал фрукт, то есть апельсин, и мы хотим знать, из какой коробки он был взят. Это требует, чтобы мы оценили распределение вероятностей по ящику, обусловленное идентичностью фруктов, а вероятности в (1.16)-(1.19) дают распределение вероятностей по фруктам, обусловленное идентичностью ящика. Мы можем решить проблему обращения условной вероятности, используя теорему Байеса, что дает

p(B=r|F=o)=\frac{p(F=o|B=r)p(B=r)}{p(F=o)}=\frac{3}{4}\times\frac{4}{10}\times\frac{20}{9}=\frac{2}{3}\tag{1.23}

Согласно правилу суммирования, $p(B=b|F=o)=1-2/3=1/3$ .

Мы можем сделать следующую важную интерпретацию теоремы Байеса. Если бы нас спросили, какая коробка была выбрана, прежде чем нам сказали бы, какой фрукт выбран, наиболее полной информацией, которую мы могли бы получить, была бы вероятность $p(B)$ . Мы называем это априорной вероятностью, потому что это вероятность, доступная до того, как мы наблюдаем свойства плода. Как только нам говорят, что фрукт — апельсин, мы можем использовать теорему Байеса для вычисления вероятности $p(B|F)$ , которую мы называем апостериорной вероятностью. Обратите внимание, что в этом примере априорная вероятность выбора красного ящика составляет 4/10, поэтому мы с большей вероятностью выберем синий ящик, чем красный. Однако, как только мы заметим, что выбранный фрукт оранжевый, мы обнаружим, что апостериорная вероятность красного ящика теперь равна 2/3, поэтому ящик, который мы теперь с большей вероятностью выберем, на самом деле красный. Этот результат согласуется с нашей интуицией, поскольку доля апельсинов в красном ящике намного выше, чем в синем ящике, поэтому наблюдаемый оранжевый фрукт является важным доказательством в поддержку ящика, да, вместо него был выбран красный ящик. синего ящика Скорее всего.

Наконец, заметим, что если совместное распределение двух переменных разложить на произведение полей, такое что $p(X,Y)=p(X)p(Y)$ ,Так $X$ и $Y$ называется независимым. Из правила произведения мы видим $p(Y|X)=p(Y)$ , так дано $X$ из $Y$ Условное распределение действительно такое же, как $X$ значение не имеет значения. Например, в нашем примере с фруктами и, если в каждой коробке содержится одинаковая доля яблок и апельсинов, то $p(F|B)=P(F)$ , поэтому вероятность выбора, скажем, яблока не зависит от того, какая коробка выбрана.