1.2.3 Байесовская вероятность
До сих пор в этой главе мы рассматривали вероятность с точки зрения частоты случайных повторяющихся событий. Мы будем называть это классической или частотной интерпретацией вероятности. Теперь обратимся к более общему байесовскому подходу, согласно которому вероятность дает количественную оценку неопределенности.
Рассмотрим неопределенное событие, например, вращалась ли когда-либо Луна вокруг Солнца сама по себе или исчезают ли арктические ледяные шапки к концу века. Эти вещи нельзя повторять столько раз, сколько мы делали ранее в контексте ящиков с фруктами, чтобы определить вероятности вероятностей. Однако у нас обычно есть некоторые идеи, например, как быстро, по нашему мнению, тает полярный лед. Если мы сейчас получим новые доказательства, такие как новые формы диагностической информации, собранной с нового спутника наблюдения Земли, мы можем пересмотреть наш взгляд на темпы потери льда. Наша оценка этих вопросов повлияет на наши действия, например, на степень нашей работы по сокращению выбросов парниковых газов. В этом случае мы хотим иметь возможность количественно оценить наше выражение неопределенности и внести точные поправки в неопределенность на основе новых данных, а затем иметь возможность предпринять наилучшее действие или решение. Все это возможно с элегантными и очень общими вероятностными байесовскими интерпретациями.
Тем не менее, выражение неопределенности в терминах вероятности не является частным выбором, но неизбежно, если мы уважаем здравый смысл, делая рационально согласованные выводы. Например, Кокс (1946) показал, что если достоверность представлена в числовом виде, то простой набор аксиом, кодирующих свойства здравого смысла этих убеждений, однозначно приведет к набору правил, управляющих достоверностью, которые эквивалентны сумме и произведению вероятностей правила из. Это первое строгое доказательство того, что теорию вероятностей можно рассматривать как расширение булевой логики на ситуации, связанные с неопределенностью. Многие другие авторы предложили различные наборы свойств или километров, которым должны удовлетворять эти меры неопределенности. В каждом случае полученное значение величины точно соответствует правилам вероятности. Поэтому естественно называть эти величины (байесовскими) вероятностями.
В области распознавания образов также полезно иметь более общее определение вероятности. Рассмотрим пример подгонки полиномиальной кривой, рассмотренный в разделе 1.1. для наблюдаемой переменнойВероятностная концепция теории частот применения случайных значений кажется разумной. Однако мы хотим решить и количественно определить параметры моделинеуверенность в правильности выбора. Мы увидим, что с байесовской точки зрения мы можем использовать механизмы теории вероятностей для описания неопределенности параметров модели, таких какили выбор самой модели.
Теорема Байеса теперь имеет новый смысл. Вспомните, что в примере с коробкой с фруктами наблюдение за идентичностью фрукта предоставило релевантную информацию, изменяющую вероятность того, что выбранная коробка была красной. В этом примере теорема Байеса используется для преобразования априорных вероятностей в апостериорные вероятности путем включения доказательств, полученных из данных наблюдений. Как мы увидим позже, мы можемПри выводе таких величин используются приближенные методы. Прежде чем смотреть на данные, мы можем получить априорное распределение вероятностейФорма захватывает нас оУспение. Влияние данных наблюденийпередать условную вероятностьПредставление мы увидим позже в разделе 1.2.5, если оно представлено явно. Теорема Байеса, имеющая вид
Затем мы допускаем нашу апостериорную вероятностьформа наблюденияПосле оценкинеуверенность в .
Количество правых частей теоремы Байесадля набора данных наблюденияВычисленный, его можно рассматривать как вектор параметровфункция , в данном случае называемая функцией правдоподобия. Он представляет, что для вектора параметровРазличные настройки , вероятность наблюдения набора данных. Заметьте, кажется, что нетраспределения вероятностей на , которое относится кИнтеграл от (не обязательно) равен 1.
Учитывая определение этой возможности, мы можем выразить теорему Байеса словами
где все эти величины учитываютсяФункция. Знаменатель в (1.43) — это нормировочная константа, которая гарантирует, что апостериорное распределение слева является действительной плотностью вероятности и интегрируется до единицы. В самом деле, интеграл (1.43) примерно равенС обеих сторон мы можем использовать априорное распределение и функцию правдоподобия для представления знаменателя в теореме Байеса.
В байесовской и частотной формах функция правдоподобияиграет центральную роль. Однако способ его использования принципиально различается в этих двух методах. В настройках частотыСчитается фиксированным параметром, значение которого определяется некоторой формой «оценки», планки погрешностей которой определяются с учетом возможного набора данных.полученный от распределения . Напротив, с байесовской точки зрения существует только один набор данных.(т. е. фактически наблюдаемый набор данных), неопределенность параметра определяется выражениемРаспределение вероятностей на представлении.