21-22 (1.2.3 байесовская вероятность)

искусственный интеллект

1.2.3 Байесовская вероятность

   До сих пор в этой главе мы рассматривали вероятность с точки зрения частоты случайных повторяющихся событий. Мы будем называть это классической или частотной интерпретацией вероятности. Теперь обратимся к более общему байесовскому подходу, согласно которому вероятность дает количественную оценку неопределенности.

   Рассмотрим неопределенное событие, например, вращалась ли когда-либо Луна вокруг Солнца сама по себе или исчезают ли арктические ледяные шапки к концу века. Эти вещи нельзя повторять столько раз, сколько мы делали ранее в контексте ящиков с фруктами, чтобы определить вероятности вероятностей. Однако у нас обычно есть некоторые идеи, например, как быстро, по нашему мнению, тает полярный лед. Если мы сейчас получим новые доказательства, такие как новые формы диагностической информации, собранной с нового спутника наблюдения Земли, мы можем пересмотреть наш взгляд на темпы потери льда. Наша оценка этих вопросов повлияет на наши действия, например, на степень нашей работы по сокращению выбросов парниковых газов. В этом случае мы хотим иметь возможность количественно оценить наше выражение неопределенности и внести точные поправки в неопределенность на основе новых данных, а затем иметь возможность предпринять наилучшее действие или решение. Все это возможно с элегантными и очень общими вероятностными байесовскими интерпретациями.

   Тем не менее, выражение неопределенности в терминах вероятности не является частным выбором, но неизбежно, если мы уважаем здравый смысл, делая рационально согласованные выводы. Например, Кокс (1946) показал, что если достоверность представлена ​​в числовом виде, то простой набор аксиом, кодирующих свойства здравого смысла этих убеждений, однозначно приведет к набору правил, управляющих достоверностью, которые эквивалентны сумме и произведению вероятностей правила из. Это первое строгое доказательство того, что теорию вероятностей можно рассматривать как расширение булевой логики на ситуации, связанные с неопределенностью. Многие другие авторы предложили различные наборы свойств или километров, которым должны удовлетворять эти меры неопределенности. В каждом случае полученное значение величины точно соответствует правилам вероятности. Поэтому естественно называть эти величины (байесовскими) вероятностями.

   В области распознавания образов также полезно иметь более общее определение вероятности. Рассмотрим пример подгонки полиномиальной кривой, рассмотренный в разделе 1.1. для наблюдаемой переменнойtnt_nВероятностная концепция теории частот применения случайных значений кажется разумной. Однако мы хотим решить и количественно определить параметры моделиwwнеуверенность в правильности выбора. Мы увидим, что с байесовской точки зрения мы можем использовать механизмы теории вероятностей для описания неопределенности параметров модели, таких какwwили выбор самой модели.

   Теорема Байеса теперь имеет новый смысл. Вспомните, что в примере с коробкой с фруктами наблюдение за идентичностью фрукта предоставило релевантную информацию, изменяющую вероятность того, что выбранная коробка была красной. В этом примере теорема Байеса используется для преобразования априорных вероятностей в апостериорные вероятности путем включения доказательств, полученных из данных наблюдений. Как мы увидим позже, мы можемwwПри выводе таких величин используются приближенные методы. Прежде чем смотреть на данные, мы можем получить априорное распределение вероятностейp(w)p(w)Форма захватывает нас оwwУспение. Влияние данных наблюденийD={t1,...,tN}D=\{t_1,...,t_N\}передать условную вероятностьp(Dw)p(D|w)Представление мы увидим позже в разделе 1.2.5, если оно представлено явно. Теорема Байеса, имеющая вид

p(wD)=p(Dw)p(w)p(D)(1.43)p(w|D)=\frac{p(D|w)p(w)}{p(D)}\tag{1.43}

Затем мы допускаем нашу апостериорную вероятностьp(wD)p(w|D)форма наблюденияDDПосле оценкиwwнеуверенность в .

   Количество правых частей теоремы Байесаp(Dw)p(D|w)для набора данных наблюденияDDВычисленный, его можно рассматривать как вектор параметровwwфункция , в данном случае называемая функцией правдоподобия. Он представляет, что для вектора параметровwwРазличные настройки , вероятность наблюдения набора данных. Заметьте, кажется, что нетwwраспределения вероятностей на , которое относится кwwИнтеграл от (не обязательно) равен 1.

   Учитывая определение этой возможности, мы можем выразить теорему Байеса словами

posteriorlikelibood×prior(1.44)апостериорный∝likelibox \times prior\tag{1.44}

где все эти величины учитываютсяwwФункция. Знаменатель в (1.43) — это нормировочная константа, которая гарантирует, что апостериорное распределение слева является действительной плотностью вероятности и интегрируется до единицы. В самом деле, интеграл (1.43) примерно равенwwС обеих сторон мы можем использовать априорное распределение и функцию правдоподобия для представления знаменателя в теореме Байеса.

p(D)=p(Dw)p(w)dw(1.45)p(D)=\int p(D|w)p(w)dw\tag{1.45}

  В байесовской и частотной формах функция правдоподобияp(Dw)p(D|w)играет центральную роль. Однако способ его использования принципиально различается в этих двух методах. В настройках частотыwwСчитается фиксированным параметром, значение которого определяется некоторой формой «оценки», планки погрешностей которой определяются с учетом возможного набора данных.DDполученный от распределения . Напротив, с байесовской точки зрения существует только один набор данных.DD(т. е. фактически наблюдаемый набор данных), неопределенность параметра определяется выражениемwwРаспределение вероятностей на представлении.