21-22 (1.2.3 байесовская вероятность)

1.2.3 Байесовская вероятность

До сих пор в этой главе мы рассматривали вероятность с точки зрения частоты случайных повторяющихся событий. Мы будем называть это классической или частотной интерпретацией вероятности. Теперь обратимся к более общему байесовскому подходу, согласно которому вероятность дает количественную оценку неопределенности.

Рассмотрим неопределенное событие, например, вращалась ли когда-либо Луна вокруг Солнца сама по себе или исчезают ли арктические ледяные шапки к концу века. Эти вещи нельзя повторять столько раз, сколько мы делали ранее в контексте ящиков с фруктами, чтобы определить вероятности вероятностей. Однако у нас обычно есть некоторые идеи, например, как быстро, по нашему мнению, тает полярный лед. Если мы сейчас получим новые доказательства, такие как новые формы диагностической информации, собранной с нового спутника наблюдения Земли, мы можем пересмотреть наш взгляд на темпы потери льда. Наша оценка этих вопросов повлияет на наши действия, например, на степень нашей работы по сокращению выбросов парниковых газов. В этом случае мы хотим иметь возможность количественно оценить наше выражение неопределенности и внести точные поправки в неопределенность на основе новых данных, а затем иметь возможность предпринять наилучшее действие или решение. Все это возможно с элегантными и очень общими вероятностными байесовскими интерпретациями.

Тем не менее, выражение неопределенности в терминах вероятности не является частным выбором, но неизбежно, если мы уважаем здравый смысл, делая рационально согласованные выводы. Например, Кокс (1946) показал, что если достоверность представлена в числовом виде, то простой набор аксиом, кодирующих свойства здравого смысла этих убеждений, однозначно приведет к набору правил, управляющих достоверностью, которые эквивалентны сумме и произведению вероятностей правила из. Это первое строгое доказательство того, что теорию вероятностей можно рассматривать как расширение булевой логики на ситуации, связанные с неопределенностью. Многие другие авторы предложили различные наборы свойств или километров, которым должны удовлетворять эти меры неопределенности. В каждом случае полученное значение величины точно соответствует правилам вероятности. Поэтому естественно называть эти величины (байесовскими) вероятностями.

В области распознавания образов также полезно иметь более общее определение вероятности. Рассмотрим пример подгонки полиномиальной кривой, рассмотренный в разделе 1.1. для наблюдаемой переменной $t_n$ Вероятностная концепция теории частот применения случайных значений кажется разумной. Однако мы хотим решить и количественно определить параметры модели $w$ неуверенность в правильности выбора. Мы увидим, что с байесовской точки зрения мы можем использовать механизмы теории вероятностей для описания неопределенности параметров модели, таких как $w$ или выбор самой модели.

Теорема Байеса теперь имеет новый смысл. Вспомните, что в примере с коробкой с фруктами наблюдение за идентичностью фрукта предоставило релевантную информацию, изменяющую вероятность того, что выбранная коробка была красной. В этом примере теорема Байеса используется для преобразования априорных вероятностей в апостериорные вероятности путем включения доказательств, полученных из данных наблюдений. Как мы увидим позже, мы можем $w$ При выводе таких величин используются приближенные методы. Прежде чем смотреть на данные, мы можем получить априорное распределение вероятностей $p(w)$ Форма захватывает нас о $w$ Успение. Влияние данных наблюдений $D=\{t_1,...,t_N\}$ передать условную вероятность $p(D|w)$ Представление мы увидим позже в разделе 1.2.5, если оно представлено явно. Теорема Байеса, имеющая вид

p(w|D)=\frac{p(D|w)p(w)}{p(D)}\tag{1.43}

Затем мы допускаем нашу апостериорную вероятность $p(w|D)$ форма наблюдения $D$ После оценки $w$ неуверенность в .

Количество правых частей теоремы Байеса $p(D|w)$ для набора данных наблюдения $D$ Вычисленный, его можно рассматривать как вектор параметров $w$ функция , в данном случае называемая функцией правдоподобия. Он представляет, что для вектора параметров $w$ Различные настройки , вероятность наблюдения набора данных. Заметьте, кажется, что нет $w$ распределения вероятностей на , которое относится к $w$ Интеграл от (не обязательно) равен 1.

Учитывая определение этой возможности, мы можем выразить теорему Байеса словами

апостериорный∝likelibox \times prior\tag{1.44}

где все эти величины учитываются $w$ Функция. Знаменатель в (1.43) — это нормировочная константа, которая гарантирует, что апостериорное распределение слева является действительной плотностью вероятности и интегрируется до единицы. В самом деле, интеграл (1.43) примерно равен $w$ С обеих сторон мы можем использовать априорное распределение и функцию правдоподобия для представления знаменателя в теореме Байеса.

p(D)=\int p(D|w)p(w)dw\tag{1.45}

В байесовской и частотной формах функция правдоподобия $p(D|w)$ играет центральную роль. Однако способ его использования принципиально различается в этих двух методах. В настройках частоты $w$ Считается фиксированным параметром, значение которого определяется некоторой формой «оценки», планки погрешностей которой определяются с учетом возможного набора данных. $D$ полученный от распределения . Напротив, с байесовской точки зрения существует только один набор данных. $D$ (т. е. фактически наблюдаемый набор данных), неопределенность параметра определяется выражением $w$ Распределение вероятностей на представлении.