2 Структура обучения PAC (стр. 25)

машинное обучение

Определение 2.4 Независимое обучение PAC

Предполагать HHявляется набором гипотез. AAнепостижимоеPACалгоритм обучения, если есть полиномиальная функцияpoly(,,,)poly(·,·,·,·)сделать для любогоϵ > 0\epsilon > 0 и δ > 0δ > 0, заX × YX × YВсе раздачи наDD, следующее относится к любому размеру выборкиm  poly(1/ϵ, 1/δ, n, size(c))m ≥ поли(1/\эпсилон, 1/δ, n, размер(с)):

PrSDm[R(hs)minhеHR(h)ϵ]1δ.(2.21)\underset {S\sim D^m}{Pr}[R(h_s)-\underset {h\in H}{min}R(h)\le \epsilon]\ge1-δ.(2.21)

Если A далее запустить в poly(1/ε, 1/δ, n, size(c)) , то он считается эффективным алгоритмом обучения PAC, не зависящим от него.

Когда метка точки может быть определена некоторой измеримой функциейf : X  Yж : Х → Y(с вероятностью 1), когда он однозначно определен, сценарий называется детерминированным. В этом случае рассмотрим распределение по входному пространствуDD Будет достаточно. Обучающие выборки получаютсяDDрисовать(x1, . . , xm)(x1, . . , xm)получены и черезffПолучите этикетку:yi = f(xi)y_i = f(x_i)для всехi е [1,m]я ∈ [1,m]. В этом детерминированном сценарии можно сформулировать многие проблемы обучения.
В предыдущих разделах и в большей части материала, представленного в этой книге, мы для простоты ограничили введение детерминированными сценариями. Однако для всего этого материала расширения для случайных сценариев должны быть понятны читателю.

2.4.2 Байесовская ошибка и шум

В детерминированном случае по определению существует целевая функция f:R(h)=0 без ошибки обобщения. В случайных случаях существует минимальная ненулевая ошибка для любой гипотезы

Определение 2.5 Байесовская ошибка

данныйX×YX×Yраспространение наDD, байесовская ошибкаR*Р^*определяется как измеримая функцияh:XYч: X→YИнфимум полученной ошибки:

R*=infhhможет быть измеренR(h).(2.22)R ^ * = \ underset {\ underset {h измеримый} {h}} {inf} R (h). (2.22)

R(h) = R*R (ч) = R ^ *Гипотеза h называется байесовской гипотезой или байесовским классификатором.
По определению в детерминированном случае имеемR* = 0Р^* = 0, но в случайных случаяхR*0R^*\neq 0Очевидно, байесовский классификаторhBayesh_{Bayes}можно определить в соответствии с условной вероятностью как:

xеX,hBayes(x)=argmaxPryе{0,1}[y][x].(2.23)\forall x\in X, h_{Bayes}(x)=\underset {y\in \{0,1\}}{argmaxPr}[y][x].(2.23)

hBayesh_{Bayes} существует x е Xх е ХСредняя ошибка наminPr[0x], Pr[1x]min{Pr[0|x], Pr[1|x]}, что является наименьшей возможной ошибкой. Это приводит к следующему определению шума.

Определение 2.6 Шум

данный X × YX × Yраспространение наDD,точка x е Xх е ХШум при определяется как

noise(x)=min{Pr[1x],Pr[0x]}.(2.24)noise(x)=min\{Pr[1|x],Pr[0|x]\}.(2.24)

средний шум илиDDСопутствующий шумE[noise(x)]E[noise(x)].
Таким образом, средний шум — это просто байесовская ошибка:noise = E[noise(x)] = R*noise = E[noise(x)] = R^*. Шум является характеристикой учебной задачи, указывающей на ее сложность. один пункт x е Xх е Х, его шум(x)(x)около 1/21/2, иногда называемый шумом, безусловно, является проблемой для точных прогнозов.