3 Сложность Радемахера и размерность VC

искусственный интеллект алгоритм задняя часть

3 Сложность Радемахера и размерность VC

Набор предположений, обычно используемых в машинном обучении, бесконечен. Однако оценки сложности выборки из предыдущей главы неинформативны при работе с бесконечными наборами гипотез. Можно спросить, когда гипотетический наборH\mathcal HМожно ли эффективно учиться на конечных выборках, когда бесконечность. Наш анализ семейства выровненных по оси прямоугольников (пример 2.4) показывает, что это действительно возможно, по крайней мере, в некоторых случаях, потому что мы показываем, что бесконечные классы понятий сжимаемы. Наша цель в этой главе — обобщить этот результат и вывести общие гарантии обучения для бесконечных наборов гипотез.
Общая идея сделать это состоит в том, чтобы свести бесконечный случай к анализу конечного набора предположений, а затем выполнить шаги из предыдущей главы. Существуют разные методы такого упрощения, каждый из которых опирается на свой набор предполагаемых понятий сложности. Первое понятие сложности, которое мы будем использовать, этоСложность Радемахера. Это поможет нам получить гарантии обучения, используя относительно простые доказательства, основанные на неравенствах МакДиармида, и получить высококачественные оценки, включая оценки, зависящие от данных, которые мы будем часто использовать в следующих главах. Однако для некоторых наборов гипотез оценка с доказанной сложностью Радемахера оказывается NP-трудной. Поэтому введем два других чисто композиционных понятия,функция ростаиизмерение ВК. Сначала мы связываем сложность Радемахера с функцией роста, а затем ограничиваем функцию роста в соответствии с размерностью VC. Параметр VC обычно легче связать или оценить. Мы рассмотрим серию примеров, показывающих, как ее вычислить или связать, а затем свяжем функцию роста с измерением VC. Это приведет к границам обобщения, основанным на размерности VC. Наконец, мы даем нижние границы на основе измерения VC при двух разных настройках:достижимые настройки, где по крайней мере одна гипотеза в рассматриваемом наборе гипотез достигает нулевой ожидаемой ошибки, инедостижимые настройки, где ни одна гипотеза в наборе гипотез не достигает нулевой ожидаемой ошибки.

3.1 Сложность Радемахера

мы будем продолжать использоватьH\mathcal Hдля представления гипотезы, установленной в предыдущей главе. Многие результаты в этом разделе носят общий характер и применимы к произвольным функциям потерь.L:Y×YRL:\mathcal Y × \mathcal Y\to \mathbb R. ниже,G\mathcal Gобычно интерпретируется какZ=X×YZ=X×YприбытьR\mathbb RизH\mathcal HСопоставьте соответствующее семейство функций потерь:

G={g:(x,y)L(h(x),y):hеH}.\mathcal G=\{g:(x,y)\to L(h(x),y):h\in \mathcal H\}.

Однако определение находится в семействе функцийG\mathcal Gиз любого входного пространстваZ\mathcal Zсопоставить сR\mathbb Rдается в общем случае.

Сложность Радемахера отражает богатство семейства функций, измеряя, насколько хорошо набор гипотез соответствует случайному шуму. Формальные определения эмпирической и средней сложности Радемахера приведены ниже.

Определение 3.1: (эмпирическая сложность Радемахера)

ПредполагатьG\mathcal Gэто изZ\mathcal Zсопоставить с[a,b][а, б]семейство функций,S=(z1,,zm)\mathcal S=(z_1,...,z_m)размерm\mathcal mи элементZ\mathcal Zфиксированный образец в формате . Потом,G\mathcal Gотносительно образцаSSЭмпирическая сложность Радемахера определяется как:

R^S(G)=Eϵ[supgеG1mi=1mϵig(zi)],(3.1)\hat {\mathcal R}_S(\mathcal G)=\underset{\epsilon}{\mathbb E}[\underset{g\in \mathcal G}{\sup}\frac{1}{m}\sum^m_{i=1}\epsilon_ig(z_i)], \tag{3.1}

В формулеϵ=(оi,...,оm)T\epsilon=(\sigma_i,...,\sigma_m)^{T}о\sigmaэто взять{1,+1}\{−1, +1\}. Случайные переменныеоi\sigma_iназывается переменной Радемахера.

ПредполагатьgSg_SПредставляет собой вектор значений, которые функция g принимает на выборке S:gS=(g(z1),,g(zm))Tg_S=(g(z_1),…,g(z_m))^T. Тогда эмпирическая сложность Радемахера может быть переписана как

R^S(G)=Eϵ[supgеGоgSm].\hat {\mathcal R}_S(\mathcal G)=\underset{\epsilon}{\mathbb E}[\underset{g\in \mathcal G}{\sup}\frac{\sigma g_S}{m}].

Внутренний продуктоgS\sigma·g_SИзмерениеgSg_Sсо случайным вектором шумао\sigmaкорреляция. супремумsupgеGоgSm\sup_{g\in\mathcal G\frac{\sigma g_S}{m}}класс функции мерыG\mathcal Gв образцеS\mathcal Sна со\sigmaиндикаторы релевантности. Таким образом, эмпирическая сложность Радемахера измеряет в среднем класс функцийG\mathcal GиS\mathcal SКорреляция случайного шума сверху. Это описывает семьюG\mathcal Gбогатство: более богатые или более сложные семьиG\mathcal Gможно сгенерировать больше векторовgSg_S, что в среднем лучше коррелирует со случайным шумом.

Определение 3.2 (сложность Радемахера)

ПредполагатьD\mathcal DПредставляет распределение, из которого была взята выборка. для любого целого числаm1m\ge 1,G\mathcal GСложность Радемахера основана наD\mathcal DРазмер чертежаmmОжидаемое значение эмпирической сложности Радемахера для всех выборок:

Rm(G)=ESDm[R^S(G)](3.2)\mathcal R_m(\mathcal G)=\underset{\mathcal S\sim\mathcal D^m}{\mathbb E}[\hat{\mathcal R}_S(\mathcal G)]\qquad\qquad\qquad(3.2)

Теперь мы готовы дать нашу первую обобщающую оценку, основанную на сложности Радемахера.

Теорема 3.3

ПредполагатьG\mathcal GОтZ\mathcal Zсопоставить с[0,1][0,1]семейство функций. Тогда для любогоδ>0\delta>0, с вероятностью не менее1δ1−\дельтапо размеруmmобразцы iidS\mathcal S, следующее относится ко всемgеGg\in\mathcal G :

E[g(z)]1mi=1mg(zi)+2Rm(G)+log1δ2m(3.3)\mathbb E[g(z)]\le\frac{1}{m}\sum^m_{i=1}g(z_i)+2\mathcal R_m(\mathcal G)+\sqrt{\frac{\log\frac{1}{\delta}}{2m}} \qquad\qquad\qquad(3.3)
andE[g(z)]1mi=1mg(zi)+2Rm(G)+3log1δ2m(3.4)and\qquad\mathbb E[g(z)]\le\frac{1}{m}\sum^m_{i=1}g(z_i)+2\mathcal R_m(\mathcal G)+3\sqrt{\frac{\log\frac{1}{\delta}}{2m}}\qquad\qquad\qquad(3.4)

Доказательство: для любого образцаS=(z1,,zm)S = (z_1, ..., z_m)и любойgеGg\in \mathcal G,мы используемE^S[g]\hat{\mathbb E}_S[g]Представляет эмпирическое среднее значение мульчи:E^S[g]=1mi=1mg(zi)\hat{\mathbb E}_S[g]=\frac{1}{m}\sum^m_{i=1}g(z_i). Доказательство заключается в применении неравенства МакДиармида к произвольным выборкам.SSФункцияΦ\Phi, где функция определяется как:

Φ(S)=supgеG(E[g]E^S[g]).(3.5)\Phi (S)=\underset{g\in\mathcal G}{\sup}(\mathbb E[g]-\hat{\mathbb E}_S[g]).\qquad\qquad\qquad(3.5)

ПредполагатьSSиS'S'две выборки, которые только близки друг к другу, пустьSSсерединаzmz_mиS'S'серединаzm'z'_m. Тогда, поскольку разность супремума не превосходит супремума разности, имеем

Φ(S')Φ(S)supgеG(E^S[g]E^S'[g])=supgеGg(zm)g(zm')m1m(3.6)\Phi (S')-\Phi (S)\le\sup_{g\in\mathcal G}(\hat{\mathbb E}_S[g]-\hat{\mathbb E}_{S'}[g])=\sup_{g\in\mathcal G}\frac{g(z_m)-g(z'_m)}{m}\le\frac{1}{m}\qquad\qquad\qquad(3.6)

Так же мы можем получитьΦ(S)Φ(S')1m\Phi(S)−\Phi(S')\le\frac{1}{m},следовательноΦ(S)Φ(S')1m|\Phi(S)−\Phi(S')|\le\frac{1}{m}. Тогда согласно неравенству МакДиармида для любогоδ>0\delta>0, с вероятностью не менее1δ21-\ гидроразрыва {\ дельта} {2}, имеет место следующая формула:

Φ(S)ES[Φ(S)]+log2δ2m(3.7)\Phi(S)\le\underset{S}{\mathbb E}[\Phi(S)]+\sqrt{\frac{\log\frac{2}{\delta}}{2m}}\qquad\qquad\qquad(3.7)

Затем мы ограничиваем ожидаемое значение с правой стороны до:

ES[Φ(S)]=ES[supgеG(E[g]E^S(g))]\qquad\qquad\underset{S}{\mathbb E}[\Phi (S)]=\underset{S}{\mathbb E}[\underset{g\in \mathcal G}{\sup}(\mathbb E[g]-\hat{\mathbb E}_S(g))]

=ES[supgеGES'[E^S'(g)E^S(g)]](3.8)=\underset{S}{\mathbb E}[\underset{g\in \mathcal G}{\sup}\underset{S'}{\mathbb E}[\hat{\mathbb E}_{S'}(g)-\hat{\mathbb E}_S(g)]]\qquad\qquad\qquad(3.8)
ES,S'[supgеG(E^S'(g)E^S(g))](3.9)\le\underset{S,S'}{\mathbb E}[\underset{g\in \mathcal G}{\sup}(\hat{\mathbb E}_{S'}(g)-\hat{\mathbb E}_S(g))]\qquad\qquad\qquad(3.9)
=ES,S'[supgеG1mi=1m(g(zi')g(zi))](3.10)=\underset{S,S'}{\mathbb E}[\underset{g\in \mathcal G}{\sup}\frac{1}{m}\sum^m_{i=1}(g(z'_i)-g(z_i))]\qquad\qquad\qquad(3.10)
=Eо,S,S'[supgеG1mi=1mоi(g(zi')g(zi))](3.11)=\underset{\sigma,S,S'}{\mathbb E}[\underset{g\in \mathcal G}{\sup}\frac{1}{m}\sum^m_{i=1}\sigma_i(g(z'_i)-g(z_i))]\qquad\qquad\qquad(3.11)
Eо,S'[supgеG1mi=1mоig(zi')]+Eо,S[supgеG1mi=1mоig(zi)](3.12)\le\underset{\sigma,S'}{\mathbb E}[\underset{g\in \mathcal G}{\sup}\frac{1}{m}\sum^m_{i=1}\sigma_ig(z'_i)]+\underset{\sigma,S}{\mathbb E}[\underset{g\in \mathcal G}{\sup}\frac{1}{m}\sum^m_{i=1}-\sigma_ig(z_i)]\qquad\qquad\qquad(3.12)
=2Eо,S[supgеG1mi=1mоig(zi)]=2Rm(G).(3.13)=2\underset{\sigma,S}{\mathbb E}[\underset{g\in \mathcal G}{\sup}\frac{1}{m}\sum^m_{i=1}\sigma_ig(z_i)]=2\mathcal R_m(\mathcal G).\qquad\qquad\qquad(3.13)

Уравнение (3.8) использует тот факт, чтоS'S'Точки в отбираются iid, поэтомуE[g]=ES'[E^S'(g)]\mathbb E[g]=\mathbb E_{S'}[\hat{\mathbb E}_{S'}(g)], как показано в (2.3). Неравенство 3.9 выполняется в силу субаддитивности супремум-функции.

В уравнении (3.11) введем переменную Радемахераоi\sigma_i, которая является равномерно распределенной независимой случайной величиной, которая принимает значение в {−1, 1}, как показано в определении 3.2. Это не меняет ожидание, фигурирующее в (3.10): когдаоi=1\sigma_i=1, соответствующая сумма остается той же, когдаоi=1\sigma_i=−1, связанная сумма и знак переворота, что эквивалентноSSиS0S_0обмен междуziz_iиz0z_0. Поскольку мы знаем все возможныеSSиS0S_0Сделайте ожидание, чтобы замена не повлияла на общее ожидание; мы просто меняем порядок суммирования внутри ожидания.

Уравнение (3.12) определяется субаддитивностью супремум-функции, т. е. неравенствомsup(U+V)sup(U)+sup(V)\sup (U+V)\le\sup(U)+\sup(V). Наконец, (3.13) следует из определения сложности Радемахера и переменныхоi\sigma_iиоi−\sigma_iраспределяются таким же образом.

в уравнении (3.13)Rm(G)\mathcal R_m(\mathcal G)Сокращение , дает оценку в уравнении (3.3), используяδ\deltaзаменятьδ/2\delta/2. чтобы вывестиR^S(G)\hat{\mathcal R}_S(\mathcal G)Оценивая , заметим, что по определению 3.1 изменениеSSМаксимум одно очко в изменении1/m1/mизR^S(G)\hat{\mathcal R}_S(\mathcal G). Затем, снова используя неравенство МакДиармида, вероятность равна1δ/21− \дельта/2Следующее:

Eоji\underset{\sigma}{\mathbb E}\sum^i_j
Rm(G)R^S(G)+log2δ2m.(3.14)\mathcal R_m(\mathcal G)\le\hat {\mathcal R}_S(\mathcal G)+\sqrt{\frac{\log\frac{2}{\delta}}{2m}}.\qquad\qquad\qquad(3.14)

Наконец, мы используем объединение, связанное для объединения неравенств 3.7 и 3.14 с вероятностью не менее1δ1-\delta :

Φ(S)2R^S(G)+3log2δ2m(3.15)\Phi(S)\le2\hat {\mathcal R}_S(\mathcal G)+3\sqrt{\frac{\log\frac{2}{\delta}}{2m}}\qquad\qquad\qquad(3.15)

Вышеупомянутое соответствует (3.4).

Следующие результаты предполагают, что множествоH\mathcal HЭмпирическая сложность Радемахера с бинарной потерей (ноль-единичная потеря) случай сH\mathcal HСемейство связанных функций потерьG\mathcal GСвязаться.

Лемма 3.4

ПредполагатьH\mathcal Hдля стоимости в{1,+1}\{−1,+1\}Семейство функций в , пусть G будет семейством нулевых функций потерь, связанных с H:G={(x,y)1h(x)y:hеH}\mathcal G=\{(x,y)\to 1_{h(x)\neq y}:h\in\mathcal H\}. заX×{1,+1}\mathcal X\times\{-1,+1\}образец любого элемента вS=((x1,y1),...,(xm,ym))S=((x_1,y_1),...,(x_m,y_m)),ПредполагатьSXS_\mathcal Xуказывает, что этоX:SX=(x1,...,xm)\mathcal X:S_\mathcal X=(x_1,...,x_m)Проекция на: . Так,G\mathcal GиH\mathcal HЭмпирическая сложность Радемахера имеет следующую связь:

R^S(G)=12R^Sx(H).(3.16)\hat {\mathcal R}_S(\mathcal G)=\frac{1}{2}\hat {\mathcal R}_{S_x} (\mathcal H).\qquad\qquad\qquad(3.16)

доказывать:заX×{1,+1}\mathcal X \times \{-1,+1\} образец любого элемента вS=((x1,y1),...,(xm,ym))S=((x_1,y_1),...,(x_m,y_m)), по определению,G\mathcal GЭмпирическая сложность Радемахера может быть выражена как:

R^S(G)=Eо[suphеH1mi=1mоi1h(xi)yi]\hat{\mathcal R}_S(\mathcal G)=\underset{\sigma}{\mathbb E}[\sup_{h\in\mathcal H}\frac{1}{m}\sum^m_{i=1}\sigma_i1_{h(x_i)\neq y_i}]
=Eо[suphеH1mi=1mоi1yih(xi)2]\qquad\qquad=\underset{\sigma}{\mathbb E}[\sup_{h\in\mathcal H}\frac{1}{m}\sum^m_{i=1}\sigma_i\frac{1-y_ih(x_i)}{2}]
=12Eо[suphеH1mi=1mоiyih(xi)]\qquad\qquad=\frac{1}{2}\underset{\sigma}{\mathbb E}[\sup_{h\in\mathcal H}\frac{1}{m}\sum^m_{i=1}-\sigma_iy_ih(x_i)]
=12Eо[suphеH1mi=1mоih(xi)]=12R^Sx(H),\qquad\qquad\qquad\qquad=\frac{1}{2}\underset{\sigma}{\mathbb E}[\sup_{h\in\mathcal H}\frac{1}{m}\sum^m_{i=1}\sigma_ih(x_i)]=\frac{1}{2}\hat{\mathcal R}_{S_x}(\mathcal H),

Здесь мы используем1h(xi)yi=(1yih(xi)/2)1_{h(x_i)\neq y_i}=(1-y_ih(xi)/2)факт, а для фиксированногоyiе{1,+1}y_i\in\{-1,+1\},оi\sigma_iиyiоi-y_i\sigma_iДело в том, что он распространяется таким же образом.

Заметим, что из этой леммы следует, что, взяв математическое ожидание, для любогоm1m\ge1 , Rm(G)=12Rm(H)\mathcal R_m(\mathcal G)=\frac{1}{2}\mathcal R_m(\mathcal H). Эти связи между эмпирической сложностью Радемахера и средней сложностью Радемахера можно использовать дляH\mathcal HСложность Радемахера для получения границ обобщения для бинарной классификации.


Теорема 3.5 (границы сложности Радемахера — бинарная классификация)

ПредполагатьH\mathcal Hпредставляет собой семейство функций, диапазон значений{1,+1}\{−1, +1\};ПредполагатьD\mathcal Dместо для вводаX\mathcal Xраздача на. Тогда для любого δ>0 согласноD\mathcal Dсделать образец размером mSSи его вероятность не менее1δ1-\delta, то для любогоhеHh\in \mathcal HОба установили:

R(h)R^S(h)+Rm(H)+log1δ2m(3.17)R(h)\le\hat R_S(h)+\mathcal R_m(\mathcal H)+\sqrt{\frac{\log\frac{1}{\delta}}{2m}}\qquad\qquad\qquad(3.17)
andR(h)R^S(h)+RS(H)+3log1δ2m(3.18)and\qquad R(h)\le\hat R_S(h)+\mathcal R_S(\mathcal H)+3\sqrt{\frac{\log\frac{1}{\delta}}{2m}}\qquad\qquad\qquad(3.18)

Доказательство. Результат следует теореме 3.3 и лемме 3.4.

Эта теорема дает две границы обобщения для бинарной классификации, основанной на сложности Радемахера. Обратите внимание, что вторая оценка (3.18) связана с данными: эмпирическая сложность РадемахераR^S(H)\hat{\mathcal R}_S(\mathcal H)это конкретный образецSSФункция. Следовательно, если мы можем вычислитьR^S(H)\hat{\mathcal R}_S(\mathcal H), эта оценка может быть особенно полезной. Но как вычислить эмпирическую сложность Радемахера? использовать сноваоi\sigma_iиоi−\sigma_iРаспределяя таким же образом, мы можем написать

R^S(H)=Eо[suphеH1mi=1mоih(xi)]=Eо[infhеH1mi=1mоih(xi)].\hat{\mathcal R}_S(\mathcal H)=\underset{\sigma}{\mathbb E}[\underset{h\in\mathcal H}{\sup}\frac{1}{m}\sum^m_{i=1}-\sigma_ih(x_i)]=-\underset{\sigma}{\mathbb E}[\underset{h\in\mathcal H}{\inf}\frac{1}{m}\sum^m_{i=1}\sigma_ih(x_i)].

Теперь, дляо\sigmaфиксированное значение , расчетinfhеH1mi=1mоih(xi)\inf_{h\in\mathcal H}\frac{1}{m}\sum^m_{i=1}\sigma_ih(x_i)эквивалентноЭмпирическая минимизация рискаПроблема в том, что это трудно вычислить для некоторых наборов гипотез. Поэтому в некоторых случаях вычислениеR^S(H)\hat{\mathcal R}_S(\mathcal H)могут быть вычислительно сложными. В следующем разделе мы свяжем сложность Радемахера с комбинированными показателями, которые легче вычислить и которые имеют независимое применение при анализе обучения во многих условиях.

3.2 Функция роста

Здесь мы покажем, как сложность Радемахера основана нафункция ростаограничить.

Определение 3.6 (Функция роста)

набор гипотезΠH:HH\Pi_\mathcal H:\mathbb H\to\mathbb Hфункция ростаH\mathcal HОпределяется следующим образом:

mеH,ΠH(m)=max{x1,...,xm}X{(h(x1),...,h(xm)):hеH}.(3.19)\forall m\in\mathbb H,\Pi_\mathcal H(m)=\underset{\{x_1,...,x_m\}\subseteq X}{\max}|\{(h(x_1),...,h(x_m)):h\in\mathcal H\}|.\qquad\qquad\qquad(3.19)

другими словами,H(m)\prod_\mathcal H(m)использоватьH\mathcal Hгипотеза вmmМаксимальное количество различных способов классификации точек. Каждая из этих различных классификаций называется бинарной классификацией, поэтому функция роста подсчитывает количество дихотомий, реализуемых гипотезой. Это обеспечивает набор гипотезH\mathcal HЕще одна мера богатства. Однако, в отличие от сложности Радемахера, эта метрика не зависит от распределения, она является чисто комбинаторной.

Чтобы связать сложность Радемахера с функцией роста, воспользуемся леммой Массарта.

Теорема 3.7 (лемма Массара)

ПредполагатьARm\mathcal A\subseteq\mathbb R^mявляется конечным множеством, иr=maxxеAX2r=\max_{x\in A}||X||_2, то выполняется следующее уравнение:

Eо[1msupXеAi=1mоixi]r2logAm,(3.20)\underset{\sigma}{\mathbb E}[\frac{1}{m}\sup_{X\in\mathcal A}\sum^m_{i=1}\sigma_ix_i]\le\frac{r\sqrt{2\log|\mathcal A|}}{m},\qquad\qquad\qquad(3.20)

В формулеоisσ_is— независимая равномерная случайная величина, значение которой равно1,1{−1, 1}иx1,...,xmx_1,...,x_mвекторXXколичество.


доказывать:из-за случайных величиноixi\sigma_ix_iнезависимы, и каждыйоixi\sigma_ix_iВозьмите значение в[xi,xi][−|x_i |,|x_i |]иi=1mxi2r2\sqrt{\sum^m_{i=1}x^2_i}\le r^2середина. Таким образом, результат следует непосредственно из границы максимального ожидания, полученной в следствии D.11.

Используя этот результат, теперь мы можем ограничить сложность Радемахера функцией роста.


Вывод 3.8

ПредполагатьG\mathcal Gпредставляет собой семейство функций ценности{1,+1}\{−1,+1\}, Тогда имеет место следующее:

Rm(G)2logΠG(m)m.(3.21)\mathcal R_m(\mathcal G)\le \sqrt{\frac{2\log\Pi_{\mathcal G(m)}}{m}}.\qquad\qquad\qquad(3.21)

доказывать:для фиксированных образцовS=(x1,,xm)S=(x_1,...,x_m),мы используемGS\mathcal G_{|S}набор векторов, представляющих значения функции(g(x1),,g(xm))(г(х_1),...,г(х_м))ggсуществуетG\mathcal Gсередина. посколькуgеGg\in\mathcal Gпринять значение{1,+1}\{−1, +1\}, норма этих векторов ограниченаm\sqrt m. Тогда мы можем применить лемму Массара следующим образом:

Rm(G)=ES[Eо[supuеGS1mi=1mоiui]]ES[m2logGSm].\mathcal R_m(\mathcal G)=\underset{S}{\mathbb E}[\underset{\sigma}{\mathbb E}[\sup_{u\in{\mathcal G|S}}\frac{1}{m}\sum^m_{i=1}\sigma_iu_i]]\le \underset{S}{\mathbb E}[\frac{\sqrt{m}\sqrt{2\log|\mathcal G_{|S}|}}{m}].

По определению,GS|\mathcal G_{|S}|Таким образом, ограниченный функцией роста,

Rm(G)ES[m2logΠG(m)m]=2logΠG(m)m,\mathcal R_m(\mathcal G)\le \underset{S}{\mathbb E}[\frac{\sqrt{m}\sqrt{2\log\Pi_\mathcal G(m)}}{m}]=\sqrt{\frac{2\log\Pi\mathcal G(m)}{m}},

Таков вывод доказательства.

Сочетание оценки обобщения (3.17) теоремы 3.5 со следствием 3.8 в терминах функции роста немедленно дает следующую оценку обобщения.


Вывод 3.9 (Границы обобщения функции роста)

ПредполагатьH\mathcal Hпредставляет собой семейство функций ценности{1,+1}\{−1, +1\}. Тогда для любогоδ>0\delta>0, с вероятностью не менее1δ1−\дельта, для любогоhеHh\in\mathcal H ,

R(h)R^S(h)+2logΠH(m)m+log1δ2m.(3.22)R(h)\le\hat R_S(h)+\sqrt{\frac{2\log\Pi_\mathcal H(m)}{m}}+\sqrt{\frac{\log\frac{1}{\delta}}{2m}}.\qquad\qquad\qquad(3.22)

3.1.png

Рисунок 3.1Размер ВК интервала на сплошной линии. (a) Любые две точки могут быть нарушены. (b) Ни один из образцов трех точек не может быть раздавлен, потому что (+,-,+) не может быть помечено.

Границы функции роста также могут быть получены напрямую (без предварительного использования границ сложности Радемахера). Полученные границы выглядят следующим образом:

P[R(h)R^S(h)>ϵ]4ΠH(2m)exp(mϵ28),(3.23)\mathbb P[|R(h)-\hat R_S(h)|>\epsilon]\le4\Pi_\mathcal H(2m)\exp(-\frac{m\epsilon^2}{8}),\qquad\qquad\qquad(3.23)

Оно отличается от (3.22) только константами.

Вычисление функции роста не всегда может быть удобным, поскольку по определению требует вычисления всехm1m\ge1изΠH(m)\Pi_\mathcal H(m). Наборы гипотез представлены в следующем разделе.H\mathcal HДругая мера сложности, основанная на одном скаляре, оказывается тесно связанной с поведением функции роста.

3.3 Размер ВК

Здесь мы вводим понятие размерности ВК (размерность Вапника-Червоненкиса). Измерение VC также является чисто комбинаторным понятием, но обычно его легче вычислить, чем функцию роста (или сложность Радемахера). Как мы увидим, параметр VC является ключевой величиной в обучении и напрямую связан с функцией роста.

Чтобы определить набор гипотезH\mathcal HИзмерение VC, мы сначала вводим понятие фрагментации. Напомним из предыдущего раздела, предположим, что коллекцияH\mathcal H,собиратьSSДихотомия заключается в использованииH\mathcal HГипотетические маркеры вSSОдин из возможных способов указать. когдаH\mathcal HПри реализации всех возможных дихотомий S, т.е.ΠH(m)=2m\Pi_\mathcal H(m)=2^mчас,m>1m>1набор точекSSгипотетический наборH\mathcal Hвламываться.

Определение 3.10 (параметр VC)

набор гипотезH\mathcal HИзмерение VC доступно поH\mathcal HРазмер самого большого набора смэшей:

VCdim(H)=max{m:ΠH(m)=2m}.(3.24)VC\dim(\mathcal H)=\max\{m:\Pi_\mathcal H(m)=2^m\}.\qquad\qquad\qquad(3.24)

Заметим, что по определению, еслиVCdim(H)=dVC\dim(\mathcal H)=d, то есть набор размеров, которые можно раздавить. Однако это не означает, что все размерыddили более мелкие коллекции разбиты, на самом деле это обычно не так.

3.2.png

Рисунок 3.2использоватьR2\mathbb R^2Гиперплоскость в делает нереализуемую дихотомию четырех точек. (a) Все четыре точки лежат на выпуклой оболочке. (b) Три точки расположены на выпуклой оболочке, а остальные точки расположены внутри.

   Чтобы дополнительно проиллюстрировать эту концепцию, мы рассмотрим ряд примеров гипотетических множеств и определим размерность VC в каждом случае. Для расчета размерности VC мы обычно отображаем нижнюю границу ее значения, а затем верхнюю границу соответствия. чтобы датьVCdim(H)VCdim(\mathcal H)Нижняя граница, просто докажите мощностьddколлекцияSSвозможноH\mathcal Hразрушать. Чтобы дать верхнюю оценку, нам нужно доказать, что нет мощностиd+1d+1коллекцияSSвозможноH\mathcal HРазрушение, которое обычно сложнее.

Пример 3.11 (интервал на сплошной линии)

Наш первый пример включает гипотетический класс интервалов на реальной прямой. Ясно, что размерность ВК не меньше двух, поскольку все четыре дихотомии(+,+),(,),(+,),(,+)(+,+),(-,-),(+,-),(-,+)Все могут быть достигнуты, как показано на рисунке 3.1 (а). Наоборот, согласно определению интервала, поскольку невозможно достичь(+,,+)(+,-,+)знак, поэтому набор из трех точек не может быть нарушен. следовательно,VCdim(intervalinR)=2VC\dim(interval\quad in\quad\mathbb R)=2.

Пример 3.12 (Гиперплоскость)

учитыватьR2\mathbb R^2Множество гиперплоскостей в , мы сначала наблюдаемR2\mathbb R^2Любые три точки, не лежащие на одной прямой, можно раздавить. Чтобы получить первые три дихотомии, мы выбираем гиперплоскость с двумя точками на одной стороне и третьей точкой на другой. Чтобы получить четвертую дихотомию, мы располагаем все три точки на одной стороне гиперплоскости. Остальные четыре дихотомии достигаются простым переключением знака. Далее мы покажем, что четыре точки нельзя разбить, рассмотрев два случая: (i) четыре точки лежат на выпуклой оболочке, определяемой четырьмя точками, и (ii) три из четырех точек лежат на выпуклой оболочке , остальные точки являются внутренними. В первом случае невозможно добиться положительных меток для одной диагональной пары и отрицательных меток для другой, как показано на рис. 3.2(а). Во втором случае невозможно получить метки с положительными точками на выпуклой оболочке и отрицательными точками внутри, как показано на рис. 3.2(b). следовательно,VCdim(hyperplanesinR2)=3VC\dim(hyperplanes\quad in\quad\mathbb R^2)=3.

   В целом, вRd\mathbb R^d, мы начинаем сRd\mathbb R^dНачиная с набора d точек вX0\Chi_0установить в качестве источника иXi\Chi_iопределяется какiе{1,...,d}i\in\{1,...,d\}, то есть точка, координаты которой равны 1, а все остальные точки равны 0, что дает нижнюю границу. Предполагатьy0,y1,...ydy_0,y_1,...y_dдаX0,X1,...,Xd\Chi_0,\Chi_1,...,\Chi_dлюбой набор этикеток. ПредполагатьWWво-первыхiiкоординатыyiy_iвектор. Тогда по уравнениюWX+y02=0W\cdot\Chi+\frac{y_0}{2}=0Декомпозиция классификатора, определяемая гиперплоскостьюX0,X1,...,Xd\Chi_0,\Chi_1,...,\Chi_d, так как для любогоiе{0,...,d}i\in\{0,...,d\},

sgn(WXi+y02)=sgn(yi+y02)=yi.(3.25)sgn(W\cdot\Chi_i+\frac{y_0}{2})=sgn(y_i+\frac{y_0}{2})=y_i.\qquad\qquad\qquad(3.25)

Чтобы получить верхнюю границу, просто покажите, что не существует множестваd+2d+2Достаточно того, что точка может быть уничтожена полупространством. Для доказательства воспользуемся следующей общей теоремой.

Теорема 3.13 (теорема Радона)

d+2d+2любой набор точекX\mathcal Xможно разделить на два подмножестваX1\mathcal X_1иX2\mathcal X_2, так чтоX1\mathcal X_1иX2\mathcal X_2Выпуклая оболочка пересекается.

доказывать:ПредполагатьX={X1,...,Xd+2}Rd\mathcal X=\{X_1,...,X_{d+2}\}\subset\mathbb R^d. Ниже приведеныα1,...,αd+2\alpha_1,...,\alpha_{d+2}серединаd+1d+1Система линейных уравнений:

i=1d+2αiXi=0andi=1d+2αi=0,(3.26)\sum^{d+2}_{i=1}\alpha_iX_i=0\qquad and\qquad\sum^{d+2}_{i=1}\alpha_i=0,\qquad\qquad\qquad(3.26)

Поскольку первое уравнение ведет к уравнению, каждая компонента соответствует одному уравнению. Количество неизвестныхd+2d+2больше, чем количество уравненийd+1d+1, поэтому система допускает ненулевые решенияβ1,...,βd+2\beta_1,...,\beta_{d+2}. так какi=1d+2βi=0\sum^{d+2}_{i=1}\beta_i=0,J1={iе[d+2]:βi>0}\mathcal J_1=\{i\in[d+2]:\beta_i>0\}иJ1={iе[d+2]:βi0}\mathcal J_1=\{i\in[d+2]:\beta_i\le0\}все непустые множества,X1={Xi:iеJ1}\mathcal X_1=\{X_i:i\in\mathcal J_1\}иX2={Xi:iеJ2}\mathcal X_2=\{X_i:i\in\mathcal J_2\}составляет часть X. Согласно последнему уравнению (3.26),iеJ1βi=iеJ2βi\sum_{i\in\mathcal J_1}\beta_i=-\sum_{i\in\mathcal J_2}\beta_i. Предполагатьβ=iеJ1\beta=\sum_{i\in\mathcal J_1}. Тогда из первой части (3.26) следует

iеJ1βiβXi=iеJ2βiβXi,\sum_{i\in\mathcal J_1}\frac{\beta_i}{\beta}X_i=\sum_{i\in\mathcal J_2}\frac{-\beta_i}{\beta}X_i,

использоватьiеJ1βiβ=iеJ2ββ=1\sum_{i\in\mathcal J_1}\frac{\beta_i}{\beta}=\sum_{i\in\mathcal J_2}\frac{-\beta}{\beta}=1сказал, иβiβ0\frac{\beta_i}{\beta}\ge0выражатьiеJ2i\in\mathcal J_2,βiβ0\frac{-\beta_i}{\beta}\ge0выражатьiеJ2i\in\mathcal J_2. Согласно определению выпуклой оболочки (Б.6) это означает, чтоiеJ1βiβXi\sum_{i\in\mathcal J_1}\frac{\beta_i}{\beta}X_iоба принадлежатX1\mathcal X1Выпуклая оболочка , также принадлежитX2\mathcal X_2выпуклая оболочка.
Теперь позвольтеX\mathcal Xэто группаd+2d+2точка. По теореме Радона его можно разделить на два множестваX1\mathcal X_1иX2\mathcal X_2, так что их выпуклые оболочки пересекаются.

Теперь позвольтеX\mathcal Xэто группаd+2d+2точка. По теореме Радона его можно разделить на два множестваX1\mathcal X_1иX2\mathcal X_2, так что их выпуклые оболочки пересекаются. Обратите внимание, что когда два набора точекX1\mathcal X_1иX2\mathcal X_2Когда они разделены гиперплоскостью, их выпуклые оболочки также разделены этой гиперплоскостью. следовательно,X1\mathcal X_1иX2\mathcal X_2нельзя разделить гиперплоскостью,X\mathcal XИ не сломается. Комбинируя наши верхние и нижние оценки, мы показываем, чтоVCdim(Rdгиперплоскость в)=d+1VC\dim(\mathbb R^d в гиперплоскости)=d+1.

Пример 3.14 (прямоугольник, выровненный по оси):

Рассматривая четыре точки ромба, мы сначала доказываем, что размерность ВК не меньше четырех. Тогда становится ясно, что можно реализовать все 16 дихотомий, некоторые из которых показаны на рис. 3.3(а). И наоборот, для любого набора из пяти различных точек, если мы построим наименьший выровненный по оси прямоугольник, содержащий точки, одна из точек окажется внутри этого прямоугольника.

3.3.png

Рисунок 3.3Размеры прямоугольника, выровненного по оси VC. (а) Пример достижимой дихотомии четырех точек в ромбовидном узоре. (b) Пятиточечная выборка не может быть достигнута, если внутренние точки и остальные точки имеют противоположные метки.

Представьте, что мы присваиваем отрицательную метку этой внутренней точке и положительную метку каждой из оставшихся четырех точек, как показано на рисунке 3. 3(б). Прямоугольник без выравнивания оси достигает этой разметки. Следовательно, никакой набор из пяти различных точек не может быть раздавлен иVCdim(выровненный по оси прямоугольник)=4VC\dim(прямоугольник, выровненный по оси)=4.

Пример 3.15 (выпуклый многоугольник)

В основном мы изучаем классы выпуклых d-углов на плоскости. Чтобы получить нижнюю оценку, докажем, что любой набор2d+12d+1Точки можно раздавить. Для этого выбираем2d+12d+1Точки, для конкретной метки, если отрицательных меток больше, чем положительных, точки с положительными метками будут использоваться как вершины многоугольника, как показано на рисунке 3.4(a). В противном случае касательная отрицательной точки используется как ребро многоугольника, как показано в (3.4)(b). Чтобы получить верхнюю границу, можно показать, что выбор точек на окружности максимизирует количество возможных дихотомий, поэтомуVCdim(выпуклый)=2d+1ВК\тусклый(выпуклый)=2d+1. Также обратите вниманиеVCdim(выпуклый многоугольник)=+VCdim(выпуклый многоугольник)=+\infty.

Пример 3.16 (синусоидальная функция)

Предыдущий пример показывает, чтоH\mathcal HИзмерение VC и определениеH\mathcal HКоличество свободных параметров такое же. Например, количество параметров, определяющих гиперплоскость, соответствует ее размерности VC. Однако это не относится к общему случаю. Несколько упражнений в этой главе иллюстрируют этот факт. Яркий пример с этой точки зрения приведен ниже. Рассмотрим следующее семейство синусоидальных функций:{tsin(юt):юеR}\{T\to\sin(\Omega T):\Omega\IN\Mathbb R\}. Пример этого функционального класса показан на рис. 3.5. Эти синусоидальные функции можно использовать для классификации точек на сплошной линии:

3.4.png

Рисунок 3.4Выпуклая плоскостьddУглы можно сломать2d+12d+1точка. (а) D-образная конструкция, когда отрицательных меток больше. (b) когда передних этикеток большеddструктура формы.

3.5.png

Рисунок 3.5функция синуса для классификации(ю=50)(\omega=50)Пример.

Используется для классификации точек на сплошной линии: если точка находится над кривой, она помечается как положительная, в противном случае — как отрицательная. Хотя это семейство синусоид определяется параметром ω, можно показать, чтоVCdim(sin)=+VC\dim(sin)=+\infty(Упражнение 3.20).

   Размерность VC многих других гипотетических множеств может быть определена или оценена сверху аналогичным образом (см. упражнение в этой главе). В частности, размерностьr<r<\inftyлюбого векторного пространстваVCVCРазмеры могут отображаться доrr(Упражнение 3.19). Следующий результат, лемма Атола, проясняет, что концепция функции роста связана сVCVCсвязи между измерениями.

3.6.png

Рисунок 3.6В доказательстве леммы ЗауэраG1\mathcal G_1иG2\mathcal G_2Иллюстрация того, как построить.

Теорема 3.17 (лемма Зауэра)

ПредполагатьH\mathcal HзаVCdim(H)=dVC\dim(\mathcal H)=dнабор гипотез. Тогда для всехmе]mathbbNm\in]mathbb N, имеет место следующее неравенство:

ΠH(m)i=0dim.(3.27)\Pi_\mathcal H(m)\le\sum^d_{i=0}\lgroup^m_i\rgroup.\qquad\qquad\qquad(3.27)

доказывать:Доказательство проводится по индукцииm+dm+dосуществляется выше. Утверждение, очевидно, относится кm=1m=1иd=0d=0илиd=1d=1. Теперь предположим, что это работает для(m1,d1)(m-1,d-1)и(m1,d)(m-1,d). исправлено сΠH(m)\Pi\mathcal H(m)Коллекция дихотомийS={x1,...,xm}\mathcal S=\{x_1,...,x_m\}, и установитеG=HS\mathcal G=\mathcal H_{|S}по правуS\mathcal Sконцепции, вытекающие из ограниченийH\mathcal Hколлекция.

   Теперь рассмотримS'={x1,...,xm1}S'=\{x_1,...,x_{m-1}\}上的下列数族。 мы будемG1=GS'\mathcal G_1=\mathcal G_{|\mathcal S'}определяется как ограничениеS'S'результирующая концепцияH\mathcal Hколлекция. Далее, определяя каждое понятие какS'S'илиSSЭто коллекция ненулевых точек, мы можем быть определены как

G2={g'S:(g'еG)(g'{xm}еG)}.\mathcal G_2=\{g'\subseteq\mathcal S:(g'\in\mathcal G)\wedge(g'\cup\{x_m\}\in\mathcal G)\}.

так какg'S'g'\subseteq\mathcal S' , g'еGg'\in\mathcal Gзначит не добавлятьxmx_m,этоG\mathcal Gконцепция. Кроме того, ограниченияg'{xm}еGg'\cup\{x_m\}\in\mathcal Gзначитxmx_mдобавить вg'g'также сделать этоG\mathcal GКонцепция чего-либо.G1\mathcal G_1иG2\mathcal G_2Структура показана на рисунке 3.6. наблюдатьG1+G2=G|\mathcal G_1|+|\mathcal G_2|=|\mathcal G|получитьG1\mathcal G_1иG2\mathcal G_2Определение.

так какVCdim(G1)VCdim(G)dVC\dim(\mathcal G_1)\le VC\dim(\mathcal G)\le d, то через определение функции роста, используя предположение индукции,

G1ΠG1(m1)i=0dim1.|\mathcal G_1|\le\Pi_{\mathcal G_1}(m-1)\le\sum^d_{i=0}\lgroup^{m-1}_i\rgroup.

Кроме того, согласноG2\mathcal G_2Определение того, если множествоZS'\mathcal Z\subseteq\mathcal S'одеялоG'\mathcal G'разбить, а потом собратьZ{xm}\mathcal Z\cup\{x_m\}одеялоG\mathcal Gразгромить. следовательно,

VCdim(G2)VCdim(G)1=d1,VC\dim(\mathcal G_2)\le VC\dim(\mathcal G)-1=d-1,

Согласно определению функции роста и индуктивному предположению,

G2ΠG2(m1)i=0d1im1.|\mathcal G_2|\le\Pi_{\mathcal G_2}(m-1)\le\sum^{d-1}_{i=0}\lgroup^{m-1}_i\rgroup.

следовательно,

G=G1+G2i=0d(im1)+i=0d+1(im1)=i=0d(im1)+(i1m1)=i=0d(im),|\mathcal G|=|\mathcal G_1|+|\mathcal G_2|\le\sum^d_{i=0}(^{m-1}_i)+\sum^{d+1}_{i=0}(^{m-1}_i)=\sum^d_{i=0}(^{m-1}_i)+(^{m-1}_{i-1})=\sum^d_{i=0}(^m_i),

Это завершает индуктивное доказательство.

Важность леммы   Зауэра можно увидеть в следствии 3.18, которое показывает, что функция роста демонстрирует только два типа поведения:VCdim(H)=d<+VC\dim(\mathcal H)=d<+\infty, при этих обстоятельствахΠH(m)=O(md)\Pi_\mathcal H(m)=O(m^d),илиVCdim(H)=+VC\dim(\mathcal H)=+\infty, при этих обстоятельствахΠH(m)=2m\Pi_\mathcal H(m)=2^m.

Следствие 3.18.

ПредполагатьH\mathcal HзаVCdim(H)=dVC\dim(\mathcal H)=dнабор гипотез. тогда для всехmdm\ge dСказать,

ΠH(m)(emd)d=O(md).(3.28)\Pi_\mathcal H(m)\le(\frac{em}{d})^d=O(m^d).\qquad\qquad\qquad(3.28)

доказывать:Доказательство начинается с леммы Зауэра. Первое неравенство умножает каждую сумму на единицу изmdm\ge dСтартовый коэффициент равен или больше 1, второе неравенство будет неотрицательным и к нему добавляются.

ΠH(m)i=0d(im)i=0d(im)(md)dii=0m(im)(md)di=(md)di=0m(im)(dm)i=(md)d(1+dm)m(md)ded.\begin{aligned} \Pi_\mathcal H(m) &\le\sum^d_{i=0}(^m_i)\\ &\le\sum^d_{i=0}(^m_i)(\frac{m}{d})^{d-i}\\ &\le\sum^m_{i=0}(^m_i)(\frac{m}{d})^{d-i}\\ &=(\frac{m}{d})^d\sum^m_{i=0}(^m_i)(\frac{d}{m})^i\\ &=(\frac{m}{d})^d(1+\frac{d}{m})^m\le(\frac{m}{d})^de^d. \end{aligned}

После упрощения выражения с помощью биномиальной теоремы воспользуемся общим неравенством(1x)ex(1-x)\le e^{-x}чтобы получить окончательное неравенство.

Только что установленная явная связь между размерностью VC и функцией роста в сочетании со следствием 3.9 немедленно приводит к следующим обобщающим оценкам, основанным на размерности VC.

Вывод 3.19 (граница обобщения размерности VC)

ПредполагатьH\mathcal Hпредставляет собой семейство функций ценности{1,1}\{−1, 1\}с размерностью ВКdd. Тогда для любогоδ>0δ>0, с вероятностью не менее1δ1−\дельта, следующее относится ко всемhеHh\in\mathcal H :

R(h)R^S(h)+2dlogemdm+log1δ2m.(3.29)R(h)\le\hat R_S(h)+\sqrt{\frac{2d\log\frac{em}{d}}{m}}+\sqrt{\frac{\log\frac{1}{\delta}}{2m}}.\qquad\qquad\qquad(3.29)

Следовательно, форма этого круга обобщения

R(h)R^S(h)+O(log(m/d)(m/d)),(3.30)R(h)\le\hat R_S(h)+O(\sqrt{\frac{\log(m/d)}{(m/d)}}),\qquad\qquad\qquad(3.30)

Это подчеркивает важность соотношения/данных обобщения. Эта теорема представляет собой еще один пример бритвы Оккама, где простота измеряется меньшими размерами VC.

Границы размерности VC могут быть получены непосредственно без использования промежуточных оценок сложности Радемахера, как в (3.23): Объединение леммы Зауэра с (3.23) дает следующие оценки высокой вероятности

R(h)R^S(h)+8dlog2emd+8log4δm,R(h)\le\hat R_S(h)+\sqrt{\frac{8d\log\frac{2em}{d}+8\log\frac{4}{\delta}}{m}},

Его общий вид (3.30). Логарифмический множитель играет в этих оценках лишь незначительную роль. Фактически, для устранения этого фактора можно использовать более детальный анализ.

3.4 Нижний мир

В предыдущем разделе мы дали несколько верхних оценок ошибки обобщения. Напротив, в этом разделе дается нижняя граница ошибки обобщения любого алгоритма обучения с точки зрения размерности VC набора используемых предположений.

   Эти нижние границы показаны путем обнаружения «плохого» распределения любого алгоритма. Поскольку алгоритм обучения произвольный, указать конкретное распределение затруднительно. Скорее достаточно неконструктивно доказать его существование. На высоком уровне метод доказательства, используемый для достижения этого, представляет собой метод теории вероятностей Пола Эльдо. В приведенном ниже доказательстве сначала дается нижняя граница ожидаемой ошибки параметров, определяющих распределение. Отсюда следует, что нижняя граница применяется по крайней мере к одному набору параметров, то есть к распределению.

Теорема 3.20 (нижняя оценка, случай достижимости)

ПредполагатьH\mathcal Hразмер vcd>1d>1набор гипотез. Тогда для любогоm1m\ge1и любой алгоритм обученияA\mathcal A, есть раздачаD\mathcal Dразделить наX\mathcal Xи целевая функцияfеHf\in\mathcal Hтак что

PSDm[RD(hS,f)>d132m]1/100.(3.31)\underset{S\sim\mathcal D^m}{\mathbb P}[R_\mathcal D(h_S,f)>\frac{d-1}{32m}]\ge1/100.\qquad\qquad\qquad(3.31)

доказывать:ПредполагатьXˉ={x0,x1,...,xd1}X\bar X=\{x_0,x_1,...,x_{d-1}\}\subseteq XэтоH\mathcal HРазбитая коллекция. для любогоϵ>0\epsilon>0,Мы выбираемD\mathcal D, сократив свою поддержку доXˉ\bar X, так точкаx0x_0с очень большой вероятностью(18ϵ)(1-8\epsilon), остальная вероятностная масса равномерно распределена по остальным точкам:

PD[x0]=18ϵandiе[d1],PD[xi]=8ϵd1.(3.32)\underset{\mathcal D}{\mathbb P}[x_0]=1-8\epsilon\qquad and\qquad\forall_i\in[d-1],\underset{\mathcal D}{\mathbb P}[x_i]=\frac{8\epsilon}{d-1}.\qquad\qquad\qquad(3.32)

С этим определением большинство образцов содержатX0X_0,так какXXбыть раздавленным, когда определитсяxix_iКогда на таблице нет меток, попадающих в обучающую выборку,A\mathcal AВ общем, не лучше, чем подбросить монетку.

мы предполагаем, чтоA\mathcal Aсуществуетx0x_0В приведенном выше нет ошибки, но без потери общности. для образцаSS, мы позволяемSˉ\bar Sозначает, что его элементы находятся в{x1,...,xd1}\{x_1,...,x_{d-1}\}набор в , пустьS\mathcal SразмерmmобразецSSсборник, такойSˉ(d1)/2|\bar S|\le(d-1)/2. Теперь исправьте образецSеSS\in\mathcal S, и учитывать все меткиf:Xˉ{0,1}f:\bar X\to\{0,1\}равномерное распределение поU\mathcal U, так как набор уничтожен, все метки находятся вH\mathcal Hсередина. Тогда имеет место следующая нижняя оценка:

EfU[RD(hS,f)]=fxеXˉ1hS(x)f(x)P[x]P[f]fxSˉ1hS(x)f(x)P[x]P[f]=xSˉ(f1hS(x)f(x)P[x])P[f]=12xSˉP[f]12d128ϵd1=2ϵ.(3.33)\begin{aligned} \underset{f\sim\mathcal U}{\mathbb E}[R_\mathcal D(h_S,f)] &=\sum_f\sum_{x\in\bar X}1_{h_S(x)\neq f(x)}\mathbb P[x]\mathbb P[f]\\ &\ge\sum_f\sum_{x\notin\bar S}1_{h_S(x)\neq f(x)}\mathbb P[x]\mathbb P[f]\\ &=\sum_{x\notin\bar S}(\sum_f1_{h_S(x)\neq f(x)}\mathbb P[x])\mathbb P[f]\\ &=\frac{1}{2}\sum_{x\notin\bar S}\mathbb P[f]\ge\frac{1}{2}\frac{d-1}{2}\frac{8\epsilon}{d-1}=2\epsilon.\qquad\qquad\qquad(3.33) \end{aligned}

Первая нижняя оценка верна, потому что, когда мы рассматриваем толькоxSˉx\notin\bar SвместоXˉ\bar Xвсе вXSˉX\notin\bar S, мы удаляем неотрицательный член из суммы. После перестановки членов следующее уравнение остается верным, потому что мы имеемfеHf\in\mathcal Hпринять ожидаемое значение, каждыйffиH\mathcal Hравные веса наH\mathcal HразгромитьXˉ\bar X. так какD\mathcal DиSˉ\bar SОпределение , окончательная нижняя оценка верна, последняя означает, чтоXˉSˉ(d1)/2|\bar X-\bar S|\ge(d-1)/2.

   Так как (3.33) применимо ко всемSеSS\in\mathcal S, так что это также относится ко всемSеSS\in\mathcal S:ESеS[EfU[RD(hS,f)]]2ϵ\mathbb E_{S\in\mathcal S}[\mathbb E_{f\sim\mathcal U}[R_\mathcal D(h_S,f)]]\ge 2\epsilon. Согласно теореме Фубини математическое ожидание можно переставить, поэтому

EfU[ESеS[RD(hS,f)]]2ϵ.(3.34)\underset{f\sim\mathcal U}{\mathbb E}[\underset{S\in\mathcal S}{\mathbb E}[R_\mathcal D(h_S,f)]]\ge2\epsilon.\qquad\qquad\qquad(3.34)

это означаетEfU[ESеS[RD(hS,f)]]2ϵ\underset{f\sim\mathcal U}{\mathbb E}[\underset{S\in\mathcal S}{\mathbb E}[R_\mathcal D(h_S,f)]]\ge2\epsilonхотя бы для одного тегаf0еHf_0\in\mathcal H. Разбейте это ожидание на две части и используйтеRD(hS,f0)PD[Xˉ{x0}]R_\mathcal D(h_S,f_0)\le\mathbb P_\mathcal D[\bar X-\{x_0\}],у нас есть:

ESеS[RD(hS,f0)]=S:RD(hS,f0)ϵRD(hS,f0)P[RD(hS,f0)]+S:RD(hS,f0)<ϵRD(hS,f0)P[RD(hS,f0)]PD[Xˉ{x0}]PSеS[RD(hS,f0)ϵ]+ϵPSеS[RD(hS,f0)<ϵ]8ϵPSеS[RD(hS,f0)ϵ]+ϵ(1PSеS[RD(hS,f0)ϵ]).\begin{aligned} \underset{S\in\mathcal S}{\mathbb E}[R_\mathcal D(h_S,f_0)] &=\sum_{S:R_\mathcal D(h_S,f_0)\ge\epsilon}R_\mathcal D(h_S,f_0)\mathbb P[R_\mathcal D(h_S,f_0)]+\sum_{S:R_\mathcal D(h_S,f_0)<\epsilon}R_\mathcal D(h_S,f_0)\mathbb P[R_\mathcal D(h_S,f_0)]\\ &\le\underset{\mathcal D}{\mathbb P}[\bar X-\{x_0\}]\underset{S\in\mathcal S}{\mathbb P}[R_\mathcal D(h_S,f_0)\ge\epsilon]+\epsilon\underset{S\in\mathcal S}{\mathbb P}[R_\mathcal D(h_S,f_0)<\epsilon]\\ &\le8\epsilon\underset{S\in\mathcal S}{\mathbb P}[R_\mathcal D(h_S,f_0)\ge\epsilon]+\epsilon(1-\underset{S\in\mathcal S}{\mathbb P}[R_\mathcal D(h_S,f_0)\ge\epsilon]). \end{aligned}

PSеS[RD(hS,f0)ϵ]\mathbb P_{S\in\mathcal S}[R_\mathcal D(h_S,f_0)\ge\epsilon]Совокупные элементы в доходе

PSеS[RD(hS,f0)ϵ]17ϵ(2ϵϵ)=17.(3.35)\underset{S\in\mathcal S}{\mathbb P}[R_\mathcal D(h_S,f_0)\ge\epsilon]\ge\frac{1}{7\epsilon}(2\epsilon-\epsilon)=\frac{1}{7}.\qquad\qquad\qquad(3.35)

Поэтому все образцыSS(не обязательно вSSВероятность на ) может быть нижней границей следующим образом:

PS[RD(hS,f0)ϵ]PSеS[RD(hS,f0)ϵ]P[S]17P[S].(3.36)\underset{S}{\mathbb P}[R_\mathcal D(h_S,f_0)\ge\epsilon]\ge\underset{S\in\mathcal S}{\mathbb P}[R_\mathcal D(h_S,f_0)\ge\epsilon]\mathbb P[\mathcal S]\ge\frac{1}{7}\mathbb P[\mathcal S].\qquad\qquad\qquad(3.36)

что приводит нас кP[S]\mathbb P[S]нижняя граница. Согласно мультипликативной границе Чернова (теорема D.4), для любогоγ>0\gamma>0, больше, чем(d1)/2(д-1)/2указать на размерmmОбразец построен в:

1P[S]=P[Sm8ϵm(1+γ)]e8ϵmγ23.(3.37)1-\mathbb P[\mathcal S]=\mathbb P[S_m\ge8\epsilon m(1+\gamma)]\le e^{-8\epsilon m\frac{\gamma^2}{3}}.\qquad\qquad\qquad(3.37)

Следовательно, дляϵ=(d1)/(32m)\epsilon=(d-1)/(32m)иγ=1\gamma=1,

P[Smd12]e(d1)/12e1/1217δ,(3.38)\mathbb P[S_m\ge\frac{d-1}{2}]\le e^{-(d-1)/12}\le e^{-1/12}\le1-7\delta,\qquad\qquad\qquad(3.38)

заδ.01.\delta\le.01.получитьP[S]7δ\mathbb P[\mathcal S]\ge7\deltaиPS[RD(hS,f0)ϵ]δ\mathbb P_S[R_\mathcal D(h_S,f_0)\ge\epsilon]\ge\delta.
Теорема утверждает, что для любого алгоритмаA\mathcal A, оба существуютXX«Плохое» распределение и целевая функция наff, который определяетсяA\mathcal AВозвращенная предполагаемая ошибка представляет собой константу, умноженную наdm\frac{d}{m}, с некоторой постоянной вероятностью. Это еще раз демонстрирует ключевую роль, которую играет фактор ВК в обучении. Результаты показывают, что когда размерность VC бесконечна, обучение PAC невозможно при достижимых условиях.
   Заметим, что доказательство показывает более сильный результат, чем утверждение теоремы: распределениеD\mathcal DВыбор не зависит от алгоритмаA\mathcal A. Теперь у нас есть теорема, которая дает нижнюю оценку для нереализуемого случая. Для его доказательства необходимы следующие две леммы.

Лемма 3.21

Предполагатьα\alphaявляется равномерно распределенной случайной величиной, принимающей{α,α+}\{\alpha_-,\alpha_+\}значение в , гдеα=12ϵ2\alpha_-=\frac{1}{2}-\frac{\epsilon}{2}иα+=12+ϵ2\alpha_+=\frac{1}{2}+\frac{\epsilon}{2},ПредполагатьSSзаm1m\ge1выборка случайных величин,X1,...,XmX_1,...,X_mВыбирать{0,1}\{0,1\}значение в , и согласноPDα[X=1]=α\mathbb P_{\mathcal D_\alpha}[X=1]=\alphaРаспределение определенияDα\mathcal D_\alphaнезависимыми и равномерно распределенными. ПредполагатьhhОтXmX^mприбытьα,α+\alpha_-,\alpha_+функции справедлива следующая формула:

αE[SDαmP[h(S)α]]Φ(2m/2,ϵ),(3.39)\underset{\mathbb E}{\alpha}[\underset{\mathbb P}{S\sim\mathcal D^m_\alpha}[h(S)\neq\alpha]]\ge\Phi(2\lceil m/2\rceil,\epsilon),\qquad\qquad\qquad(3.39)

вΦ(m,ϵ)=14(11exp(mϵ21ϵ2))\Phi(m,\epsilon)=\frac{1}{4}(1-\sqrt{1-\exp(-\frac{m\epsilon^2}{1-\epsilon^2})})означает всеmmиϵ\epsilon.
доказывать:Эту лемму можно использовать с двумя уравнениями сα\alpha_-иα+\alpha_+Объясняется эксперимент с предвзятой монетой. Это означает, что на основеDα\mathcal D_{\alpha_-}илиDα+D_{\alpha_+}пробы, взятые изSSдискриминантное правилоh(S)h(S), чтобы определить, какая монета была подброшена, размер выборкиmmдолжен быть не менееΩ(1/ϵ2)\Omega(1/\epsilon^2). Это доказательство остается в качестве упражнения (упражнение D.3). Воспользуемся тем, что для любого фиксированногоϵ\epsilon, функцияmΦ(m,x)m\mapsto\Phi(m,x)выпукла, что нетрудно установить.

Лемма 3.22

ПредполагатьZZбрать[0,1][0,1]значение случайной величины. Тогда для любогоγе[0,1)\gamma\in[0,1) ,

P[z>γ]E[Z]γ1γ>E[Z]γ.(3.40)\mathbb P[z>\gamma]\ge\frac{\mathbb E[Z]-\gamma}{1-\gamma}>\mathbb E[Z]-\gamma.\qquad\qquad\qquad(3.40)

доказывать:так какZZВозьмите значение в[0,1][0,1]середина,

E[Z]=zγP[Z=z]z+z>γP[Z=z]zzγP[Z=z]γ+z>γP[Z=z]=γP[Zγ]+P[Z>γ]=γ(1P[Z>γ])+P[Z>γ]=(1γ)P[Z>γ]+γ,\begin{aligned} \mathbb E[Z] &=\sum_{z\le\gamma}\mathbb P[Z=z]z+\sum_{z>\gamma}\mathbb P[Z=z]z\\ &\le\sum_{z\le\gamma}\mathbb P[Z=z]\gamma+\sum_{z>\gamma}\mathbb P[Z=z]\\ &=\gamma\mathbb P[Z\le\gamma]+P[Z>\gamma]\\ &=\gamma(1-\mathbb P[Z>\gamma])+\mathbb P[Z>\gamma]\\ &=(1-\gamma)\mathbb P[Z>\gamma]+\gamma, \end{aligned}

Таков вывод доказательств.

Теорема 3.23 (нижняя оценка, неизменяемый случай)

ПредполагатьH\mathcal HзаVCVCизмерениеd>1d>1набор гипотез. Тогда для любогоm1m\ge1и произвольные алгоритмы обученияA\mathcal A, есть раздачаD\mathcal Dразделить наX×{0,1}X\times\{0,1\},тем самым:

PSDm[RD(hS)infhеHRD(h)>d320m]1/64.(3.41)\underset{S\sim\mathcal D^m}{\mathbb P}[R_\mathcal D(h_S)-\underset{h\in\mathcal H}{\inf}R_\mathcal D(h)>\sqrt{\frac{d}{320m}}]\ge1/64.\qquad\qquad\qquad(3.41)

Аналогично, для любого алгоритма обучения проверка сложности выборки

md320ϵ2.(3.42)m\ge\frac{d}{320\epsilon^2}.\qquad\qquad\qquad(3.42)

доказывать:ПредполагатьXˉ={x1,...,xd}X\bar X=\{x_1,...,x_d\}\subseteq Xдля группыH\mathcal Hизмельченные частицы. для любогоαе[0,1]\alpha\in[0,1]и любой векторо=(о1,...,оd)Tе{1,+1}d\sigma=(\sigma_1,...,\sigma_d)^T\in\{-1,+1\}^d, мы определяем распределениеDо\mathcal D_\sigma, его поддержкаXˉ×{0,1}\bar X\times\{0,1\}следующее:

iе[d],PDо[(xi,1)]=1d(12+оiα2).(3.43)\forall_i\in[d],\quad\underset{\mathcal D_\sigma}{\mathbb P}[(x_i,1)]=\frac{1}{d}(\frac{1}{2}+\frac{\sigma_i\alpha}{2}).\qquad\qquad\qquad(3.43)

Поэтому каждая точкаxi,iе[d]x_i,i\in[d]Этикетки следуют за распределением необъективных монет.PDо[xi]\mathbb P_{\mathcal D_\sigma}[\cdot|x_i], где отклонение определяется выражениемоi\sigma_iсимволы иα\alphaразмер определяет. Для определения каждой точкиxix_iнаиболее вероятная метка , поэтому алгоритму обучения необходимо сравнитьα\alphaОценки с более высокой точностьюPDо[1xi]\mathbb P_{\mathcal D_\sigma}[1|x_i]. Для дальнейшего увеличения сложности будут выбраны в соответствии с алгоритмомα\alphaио\sigma, как показано в лемме 3.21,Ω(1/α2)\Omega(1/\alpha^2)каждая точка обучающей выборкиxix_iпример.

   Очевидно, для всехiе[d]i\in[d], байесовский классификаторhDо*h^*_{\mathcal D_\sigma}Зависит отhDо*(xi)=argmaxyе{0,1}P[yxi]=1оi>0h^*_{\mathcal D_\sigma}(x_i)=\arg\max_{y\in\{0,1\}}\mathbb P[y|x_i]=1_{\sigma_i>0}определение. так какXˉ\bar Xразбился, значитhDо*h^*_{\mathcal D_\sigma}существуетH\mathcal Hсередина. для всехhеHh\in\mathcal H ,

RDо(h)RDо(hDо*)=1dxеXˉ(α2+α2)1h(x)hDо*(x)=αdxеXˉ1h(x)hDо*(x).(3.44)R_{\mathcal D_\sigma}(h)-R_{\mathcal D_\sigma}(h^*_{\mathcal D_\sigma})=\frac{1}{d}\sum_{x\in\bar X}(\frac{\alpha}{2}+\frac{\alpha}{2})1_{h(x)\neq h^*_{\mathcal D_\sigma}(x)}=\frac{\alpha}{d}\sum_{x\in\bar X}1_{h(x)\neq h^*_{\mathcal D_\sigma}(x)}.\quad(3.44)

позволятьhSh_SАлгоритмы обучения представлениюA\mathcal Aпри полученииDо\mathcal D_\sigmaнарисованный образец маркераSSПредположения вернулись позже. мы будем использоватьSx|S|_xПредставительствоxxсуществуетSSявления в . ПредполагатьU\mathcal Uвыражать{1,+1}d\{-1,+1\}^dравномерное распределение на. Тогда, учитывая, что(3.44)(3.44), имеет место следующее представление:

EоUSDоm[1α[RDо(hS)RDо(hDо*)]]=1dxеXˉEоUSDоm[1hS(x)hDо*(x)]=1dxеXˉEоU[PSDоm[hS(x)hDо*(x)]]=1dxеXˉn=0mEоU[PSDоm[hS(x)hDо*(x)Sx=n]P[Sx=n]]1dxеXˉn=0mΩ(n+1,α)P[Sx=n](лемма3.21)1dxеXˉΩ(m/d,α)(Φ(,α)выпуклость иJensenнеравенство.)\begin{align} &\underset{\underset{S\sim\mathcal D^m_\sigma}{\sigma\sim\mathcal U}}{\mathbb E}[\ frac{1}{\alpha}[R_ {\ mathcal D_ \ sigma} (h_S) -R _ {\ mathcal D_ \ sigma} (h ^ * _ {\ mathcal D_ \ sigma})]] \\ & = \ frac {1} {d} \ sum_ {x \in\bar X}\underset{\underset{S\sim\mathcal D^m_\sigma}{\sigma\sim\mathcal U}}{\mathbb E}[1_{h_S(x)\neq h^* _ {\ mathcal D_ \ sigma} (x)}] \\ & = \ frac {1} {d} \ sum_ {x \ in \ bar X} \ underset {\ sigma \ sim \ mathcal U} {\ mathbb E }[\ underset{S\sim\mathcal D^m_\sigma}{\mathbb P}[h_S(x)\neq h^*_{\mathcal D_\sigma}(x)]]\\ &=\frac {1} {d} \ sum_ {x \ in \ bar X} \ sum ^ m_ {n = 0} \ underset {\ sigma \ sim \ mathcal U} {\ mathbb E} [\ underset {S \ sim \ mathcal D^m_\sigma}{\mathbb P}[h_S(x)\neq h^*_{\mathcal D_\sigma}(x)||S|_x=n]\mathbb P[|S|_x=n ]]\\ &\ge\frac{1}{d}\sum_{x\in\bar X}\sum^m_{n=0}\Omega(n+1,\alpha)\mathbb P[|S |_x=n]\qquad\qquad\qquad\qquad\qquad(лемма 3.21)\\ &\ge\frac{1}{d}\sum_{x\in\bar X}\Omega(m/d, \ alpha)\qquad\qquad\qquad\qquad\qquad(\Phi(\cdot,\alpha) выпукло и неравенство Дженсена.) \end{aligned}

так како\sigmaОжидаемое значение наΦ(m/d+1,α)\Phi(m/d+1,\alpha)нижняя граница , поэтому должно быть некотороеое{1,+1}d\sigma\in\{-1,+1\}^d

ESDоm[1α[RDо(hS)RDо(hDо*)]]>Φ(m/d+1,α).(3.45)\underset{S\sim\mathcal D^m_\sigma}{\mathbb E}[\frac{1}{\alpha}[R_{\mathcal D_\sigma}(h_S)-R_{\mathcal D_\sigma}(h^*_{\mathcal D_\sigma})]]>\Phi(m/d+1,\alpha).\qquad\qquad\qquad(3.45)

Тогда по лемме 3.22 дляо\sigma, для любогоγе[0,1]\gamma\in[0,1],

PSDоm[1α[RDо(hS)RDо(hDо*)]>γu]>(1γ)u,(3.46)\underset{S\sim\mathcal D^m_\sigma}{\mathbb P}[\frac{1}{\alpha}[R_{\mathcal D_\sigma}(h_S)-R_{\mathcal D_\sigma}(h^*_{\mathcal D_\sigma})]>\gamma u]>(1-\gamma)u,\qquad\qquad\qquad(3.46)

вu=Φ(m/d+1,α)u=\Phi(m/d+1,\alpha). выберитеδ\deltaиϵ\epsilon, так чтоδ(1γ)u\delta\le(1-\gamma)uиϵγαu\epsilon\le\gamma\alpha u

PSDоm[RDо(hS)RDо(hDо*)>ϵ]>δ.(3.47)\underset{S\sim\mathcal D^m_\sigma}{\mathbb P}[R_{\mathcal D_\sigma}(h_S)-R_{\mathcal D_\sigma}(h^*_{\mathcal D_\sigma})>\epsilon]>\delta.\qquad\qquad\qquad(3.47)

Чтобы соответствовать определениюϵ\epsilonиδ\deltaНеравенство , пустьγ=18δ\gamma=1-8\delta. потом

δ(1γ)uu18(3.48)14(11exp((m/d+1)α21α2))18(3.49)(m/d+1)α21α2log43(3.50)md(1α1)log431.(3.51)\begin{aligned} \delta\le(1-\gamma)u &\Longleftrightarrow u\ge\frac{1}{8}\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad(3.48)\\ &\Longleftrightarrow\frac{1}{4}(1-\sqrt{1-\exp(-\frac{(m/d+1)\alpha^2}{1-\alpha^2})})\ge\frac{1}{8}\qquad\qquad\qquad(3.49)\\ &\Longleftrightarrow\frac{(m/d+1)\alpha^2}{1-\alpha^2}\le\log\frac{4}{3}\qquad\qquad\qquad\qquad\qquad\qquad\quad(3.50)\\ &\Longleftrightarrow\frac{m}{d}\le(\frac{1}{\alpha}-1)\log\frac{4}{3}-1.\qquad\qquad\qquad\qquad\qquad\qquad(3.51) \end{aligned}

выберитеα=8ϵ/(18δ)\alpha=8\epsilon/(1-8\delta)даетϵ=γα/8\epsilon=\gamma\alpha/8и условия

md((18δ)264ϵ21)log431.(3.52)\frac{m}{d}\le(\frac{(1-8\delta)^2}{64\epsilon^2}-1)\log\frac{4}{3}-1.\qquad\qquad\qquad(3.52)

позволятьf(1/ϵ2)f(1/\epsilon^2)Указывает на правую сторону. Мы ищем формуm/dю/ϵ2m/d\le\omega/\epsilon^2достаточное условие. отϵ1/64\epsilon\le1/64начать, обеспечитью/ϵ2f(1/ϵ2)\omega/\epsilon^2\le f(1/\epsilon^2), применяяю(1/64)2=f(1(1/62)2)\frac{\omega}{(1/64)^2}=f(\frac{1}{(1/62)^2})Будет достаточно. Это условие дает

ю=(7/64)2log(4/3)(1/64)2(log(4/3)+1).0031271/320=.003125.\omega=(7/64)^2\log(4/3)-(1/64)^2(\log(4/3)+1)\approx.003127\ge1/320=.003125.

следовательно,ϵ21320(m/d)\epsilon^2\le\frac{1}{320(m/d)}достаточно для обеспечения неравенства. Теорема утверждает, что для любого алгоритмаA\mathcal A, в случае невозможностиX×{0,1}X\times\{0,1\}Существует «плохое» распределение на , такое чтоA\mathcal AВозвращенная предполагаемая ошибка представляет собой константу, умноженную наdm\sqrt{\frac{d}{m}}, с некоторой постоянной вероятностью. В этом общем случае измерение VCD также является ключевой величиной в обучении. В частности, независимое обучение PAC невозможно при бесконечных размерностях VC.

3.5 Примечания к главе 3.5

Колчинский [2001], Колчинский и Панченко [2000] и Бартлетт, Бушерон и Лугоши [2002a] впервые выступили за использование сложности Радемахера для получения границ обобщения в обучении, см. также [Колчинский и Панченко, 2002, Бартлетт и Мендельсон, 2002]. ]. Бартлетт, Буске и Мендельсон [2002b] ввели понятие локальной сложности Радемахера, то есть сложность Радемахера ограничена подмножеством множества гипотез, ограниченным границей дисперсии. Это можно использовать для получения лучших гарантий при определенных предположениях о регулярности шума.

   Теорема 3.7 должна быть представлена ​​Массату [2000]. Вапник и Червоненкис [1971] ввели понятие размерности ВК и подробно его изучили [Вапник, 2006, Вапник и Червоненкис, 1974, Blumer et al., 1989, Assouad, 1983, Dudley, 1999]. Помимо ключевой роли в машинном обучении, измерение VC широко используется в других областях информатики и математики (см., например, Shelah [1972], Chazelle [2000]). Теорема 3.17 представляет собой лемму Ас-Зауэра, известную в учебном сообществе, но ее результаты были впервые даны Вапником и Червоненкисом [1971] (в немного отличающихся версиях), а затем независимо Зауэром [1972] и Шелахом [1972].

&emps;  Когда это достижимо, Вапник и Червоненкис [1974] и Хаусслер и др. [1988] дают нижние границы ожидаемой ошибки в терминах VCD. Затем дается нижняя граница вероятности ошибки, как указано в теореме 3.20 Блумера и др. [1989]. Теорема 3.20 и ее доказательство, улучшающее предыдущие результаты, принадлежат Ehrenfeucht, Haussler, Kearns, and Valiant [1988]. Devroye and Lugosi [1995] дали более точные оценки для той же задачи с более сложными выражениями. Теорема 3.23 дает нижнюю оценку в нереализуемом случае, а данное доказательство принадлежит Энтони и Бартлетту [1999]. См. ссылку Алона и Спенсера [1992] для других примеров применения вероятностных методов, демонстрирующих их полные возможности.

&emps;  Есть несколько других мер сложности ряда функций, используемых в машинном обучении, включая числа покрытия, числа переноса и некоторые другие меры сложности, обсуждаемые в главе 11. Каждая мера сложности естественным образом сводит бесконечный набор гипотез к конечному набору гипотез, что приводит к границе обобщения для бесконечного набора гипотез. Упражнение 3.31 иллюстрирует использование покрывающих чисел для получения границ обобщения с помощью очень простого доказательства. Между этими мерами сложности также существует тесная связь: например, согласно теореме Дадли, эмпирическая сложность Радмахера может быть рассчитана какN2(G,ϵ)\mathcal N_2(\mathcal G,\epsilon)Чтобы определить [Dudley, 1967, 1987], числа покрытия и упаковки могут быть определены размерностью VC [Haussler, 1995]. См. также [Ledoux and Talagrand, 1991, Alon et al., 1997, Anthony and Bartlett, 1999, Cucker and Smale, 2001, Vidyasagar, 1997] для получения информации о показателях покрытия для некоторых других мер границы сложности.

3.6    Упражнения

1,R\mathbb RФункция роста в среднем интервале. ПредполагатьH\mathcal HзаR\mathbb RКоллекция промежуточных интервалов.H\mathcal HРазмерность VC равна 2. Рассчитайте коэффициент дробленияΠH(m),m0\Pi_\mathcal H(m),m\ge0. Сравните результаты с общими оценками функции роста.

2,R\mathbb RФункция роста и сложность Радемахера для средних порогов. ПредполагатьH\mathcal Hпредставляет собой семейство пороговых функций на вещественной прямой:H={x1xθ:θеR}{x1xθ:θеR}\mathcal H=\{x\mapsto1_{x\le\theta}:\theta\in\mathbb R\}\cup\{x\mapsto1_{x\ge\theta}:\theta\in\mathbb R\}. дать функцию ростаΠm(H)\Pi_m(\mathcal H)верхняя граница. использовать его для полученияm(H)\Re_m(\mathcal H)верхняя граница.

3. Функция роста линейной комбинации.Rd\mathbb R^dКоллекция средних векторовX\mathcal XЛинейно отделимый маркерX\mathcal XРазделены на два набораX+\mathcal X^+иX\mathcal X^-иX+={XеX:WX>0}\mathcal X^+=\{X\in\mathcal X:W\cdot X>0\}иX={XеX:WX<0}\mathcal X^-=\{X\in\mathcal X:W\cdot X<0\}для определенногоWеRdW\in\mathbb R^d.

ПредполагатьX={X1,...,Xm}\mathcal X=\{X_1,...,X-m\}даRd\mathbb R^dподмножество .

  • (а) Пусть{X+,X}\{\mathcal X^+,\mathcal X^-\}даX\mathcal XДихотомия , пустьXm+1еRdX_{m+1}\in\mathbb R^d. доказывать{X+{Xm+1},X}\{\mathcal X^+\cup\{X_{m+1}\},\mathcalX^-\}и{X+,X{Xm+1}}\{\mathcal X^+, \mathcal X^-\cup\{X_{m+1}\}\}линейно отделима над гиперплоскостью, проходящей через начало координат тогда и только тогда, когда{X+,X}\{\mathcal X^+,\mathcal X^-\}происходит через происхождение иXm+1X_{m+1}Гиперплоскости линейно отделимы.
  • (б) установитьX={X1,...,Xm}\mathcal X=\{X_1,...,X_m\}даRd\mathbb R^dподмножество такое, чтоXd\mathcal X\le dлюбойkkПодмножество элементов сkdk\le dлинейно независим. Затем было доказаноX\mathcal XКоличество линейно отделимых маркеров равноC(m,d)=2k=0d1(km1)C(m,d)=2\sum^{d-1}_{k=0}(^{m-1}_k). (Подсказка: докажите по индукцииC(m+1,d)=C(m,d)+C(m,d1)C(m+1,d)=C(m,d)+C(m,d-1) )
  • (с) установитьf1,...,fpf_1,...,f_pдаppручкаRd\mathbb R^dсопоставить сR\mathbb RФункция. определениеF\mathcal Fдля семейства классификаторов, основанных на линейных комбинациях этих функций:
F={xsgn(k=1pakfk(x)):a1,...,apеR}.\mathcal F=\{x\mapsto sgn(\sum^p_{k=1}a_kf_k(x)):a_1,...,a_p\in\mathbb R\}.

пройти черезΨ(x)=(f1(x),...fp(x))\Psi(x)=(f_1(x),...f_p(x))определениеΨ\Psi. предположим, что существуетx1,...,xmеRdx_1,...,x_m\in\mathbb R^d, так что{Ψ(x1),Ψ(xm)}\{\Psi(x_1),\Psi(x_m)\}каждогоppВсе подмножества линейно независимы. Затем получите

ΠF(m)=2i=0p1(im1).\Pi_\mathcal F(m)=2\sum^{p-1}_{i=0}(^{m-1}_i).

4. Нижняя граница функции роста. Докажите, что лемма Зауэра (теорема 3.17) является строгой. Докажите существование размерности vcddгипотетический классH\mathcal H,сделатьΠH(m)=i=0d(im)\Pi_\mathcal H(m)=\sum^d_{i=0}(^m_i).

5. Улучшенная верхняя граница Радмахера. Доказательство может быть дано формулой ES[Π(G, S)]G\mathcal GБолее тонкая верхняя граница сложности семейства Радемахера, где Π(G, S) — количество способов пометить точки в выборке S.

6. Класс одноэлементных гипотез. Рассмотрим тривиальные наборы гипотезH\mathcal H.

  • а) Докажите, что любойm>0m>0имеютm(H)=0\Re_m(\mathcal H)=0.
  • (b) Используйте аналогичную структуру для доказательства строгости леммы Массара (теорема 3.7).

7. Класс двухфункциональных гипотез. ПредполагатьH\mathcal Hпредставляет собой набор гипотез, который сводится к двум функциям:H={h1,h+1}\mathcal H=\{h_{-1},h_{+1}\} , S=(x1,...,xm)S=(x_1,...,x_m)является выборкой размера m.

  • (а) Предположениеh1h-1— постоянная функция со значением −1,h+1h+1является постоянной функцией со значением +1. Что такое vc размерность d?Верхняя граница эмпирической сложности Радемахера RS(H) (подсказка: выразить RS(H) через абсолютное значение суммы переменных Радемахера и применить неравенство Йенсена), и использоватьd/m\sqrt{d/m}Сравните верхнюю границу.
  • (б) Предположенияh1h-1является постоянной функцией со значением -1, иh+1h+1это функция, которая принимает значение -1, за исключением точки x1, которая принимает значение +1. Какова размерность d функции vc?Рассчитайте эмпирическую сложность Радемахера RS(H).

8. Тождество Радемахера. ремонтm1м≥1. Функция доказательства начинается сX\mathcal Xсопоставить сR\mathbb Rлюбой изαеR\alpha\in\mathbb Rи любые два набора гипотезH\mathcal HиH'\mathcal H'Следующие тождества для :

  • (a) ^(αH)=αm(H)\hat\Re(\alpha\mathcal H)=|\alpha|\Re_m(\mathcal H).
  • (b) ^(H+H)=m(H)+m(H')\hat\Re(\mathcal H+\mathcal H)=\Re_m(\mathcal H)+\Re_m(\mathcal H').
  • (c) ^({max(h,h'):hеH,h'еH'})m(H)+m(H')\hat\Re(\{\max(h,h'):h\in\mathcal H,h'\in\mathcal H'\})\le\Re_m(\mathcal H)+\Re_m(\mathcal H')

9. Сложность пересечения понятий Радемахера. ПредполагатьH1\mathcal H_1иH2\mathcal H_2будетX\mathcal Xсопоставить с{0,1}\{0,1\}два набора функций, пустьH={h1h2:h1еH1,h2еH2}\mathcal H=\{h_1h_2:h_1\in\mathcal H_1,h_2\in\mathcal H_2\}. Докажите, что для любого размераmmобразецSS , H\mathcal HЭмпирическая сложность Радемахера может иметь следующие границы:

^(H)^S(H1)+^S(H2).\hat\Re(H)\le\hat\Re_S(\mathcal H_1)+\hat\Re_S(\mathcal H_2).

Совет: используйте функцию Липшицаxmax(0,x1)x\mapsto\max(0,x-1)и лемма Талагранда о стягивании.

используйте это, чтобы ограничитьc1c_1иc2c_2иc1еϱ1c_1\in\varrho_1иc2еϱ2c_2\in\varrho_2пересечениеU\mathcal UРадемахеровская сложность семействаm(U)\Re_m(\mathcal U),в соответствии сc1c_1иc2c_2Сложность Радемахера.

10. Вектор предсказания сложности Радемахера. ПредполагатьS=(x1,...,xm)S=(x_1,...,x_m)размерmmобразец, зафиксированный какhRh\to\mathbb R.

  • (а) сuuвыражатьhhправильноS:u=[h(x1)h(xm)]S:u=[\begin{array}{cc}&h(x_1)\\&\dots\\&h(x_m)\end{array}]вектор предсказания. даватьH\mathcal HЭмпирическая сложность Радемахера^S(H)\hat\Re_S(\mathcal H)верхнюю границу , используяu2||u||_2Представление (подсказка: используйте ожидаемое представление абсолютного значения^S(H)\hat\Re_S(\mathcal H)и применяя неравенство Дженсена). Предположениеh(xi)е{0,1,+1}h(x_i)\in\{0,-1,+1\}для всехiе[m]i\in[m]. с разреженной меройn={ih(xi)0}n=|\{i|h(x_i)\neq0\}|Представляет границу сложности Радемахера. Какова верхняя граница экстремального значения меры разреженности?
  • (б) установитьF\mathcal FбудетX\mathcal Xсопоставить сR\mathbb Rсемейство функций. использовать^S(F)\hat\Re_S(\mathcal F)иu2||u||_2даватьF+h={f+h:fеF}\mathcal F+h=\{f+h:f\in\mathcal F\}иF±h=(F+h)(Fh)\mathcal F\pm h=(\mathcal F+h)\cup(\mathcal F-h)Верхняя граница эмпирической сложности Радемахера.

11. Радемахеровская сложность регуляризованных нейронных сетей. Пусть входное пространство будетX=Rn1\mathcal X=\mathbb R^{n_1}. В этой задаче мы рассматриваем отображениеX\mathcal XприбытьR\mathbb RСемейство регуляризованных нейронных сетей, определяемое набором функций:

H={Xj=1n2юjо(ujX):W1Λ',uj2Λ,jе[n2]},\mathcal H=\{X\mapsto\sum^{n_2}_{j=1}\omega_j\sigma(u_j\cdot X):||W||_1\le\Lambda',||u_j||_2\le\Lambda,\forall_j\in[n_2]\},

вооявляется L-липшицевой функцией. Например,ооМожет быть сигмовидной функцией, т. е. 1-липшицевой.

  • (доказательство^S(H)=Λ'mEо[supu2Λi=1mоiо(uXi)]\hat\Re_S(\mathcal H)=\frac{\Lambda'}{m}\mathbb E_\sigma[\sup_{||u||_2\le\Lambda}|\sum^m_{i=1}\sigma_i\sigma(u\cdot X_i)|].
  • (b) Используйте лемму Талагранда для всех наборов гипотез.H\mathcal Hи l-липшицевая функцияΦ\Phiэффективный:
1mоE[suphеHi=1mоi(Φh)(xi)]LmоE[suphеHi=1mоih(xi)],\frac{1}{m}\underset{\mathbb E}{\sigma}[\sup_{h\in\mathcal H}|\sum^m_{i=1}\sigma_i(\Phi\circ h)(x_i)|]\le\frac{L}{m}\underset{\mathbb E}{\sigma}[\sup_{h\in\mathcal H}|\sum^m_{i=1}\sigma_i h(x_i)|],

до верхней границы^S(H)\hat \Re_S(\mathcal H), в соответствии с эмпирической сложностью Радемахера H', где H' определяется как

H'={Xs(uX):u2Λ,sе{1,+1}}.\mathcal H'=\{X\mapsto s(u\cdot X):||u||_2\le\Lambda,s\in\{-1,+1\}\}.
  • (c) Используйте неравенство Коши-Шварца, чтобы доказать
^S(H')=ΛmEо[i=1mоiXi2].\hat\Re_S(\mathcal H')=\frac{\Lambda}{m}\mathbb E_\sigma[||\sum^m_{i=1}\sigma_i X_i||_2].
  • (г) Используя неравенствоEV[V2]EV[V22]\mathbb E_V[||V||_2]\le\sqrt{\mathbb E_V[||V||^2_2]}, верхняя граница которого поддерживается неравенством Дженсена^S(H')\hat\Re_S(\mathcal H').

*(e) Предполагая, что для всехXеSX\in S , X2r||X||_2\le rдля определенногоr>0r>0. Используя предыдущий вопрос, используйтеrrвывестиH\mathcal HВерхняя граница сложности Радемахера.

12. Сложность везде. Профессор Джесету утверждает, что согласно его размерности vcVCdim(H)VC\dim(\mathcal H), обнаружил какое-либо предположение, что функция setHof находится в{1,+1}\{−1,+1\}Лучшая оценка сложности Радемахера при взятии значения. Его царствоm(H)O(VCdim(H)m)\Re_m(\mathcal H)\le O(\frac{VC\dim(\mathcal H)}{m})форма. Можете ли вы доказать, что профессор Джесту не прав? (Подсказка: рассмотрим предположение, что sethreed — это всего лишь две простые функции.)

13. Размерность vc объединения k интервалов. Какова размерность vc сплошного подмножества, состоящего из объединения k интервалов?

14. Размерность vc конечного множества гипотез. Максимальное значение размерности vc для доказательства конечной гипотезы равноlog2H\log_2|\mathcal H|.

15. Подмножество измерения vc. по одному параметруα:Iα=[α,α+1][α+2,+)\alpha:I_\alpha=[\alpha,\alpha+1]\cup[\alpha+2,+\infty)Подмножество параметризованных сплошных линийIαI_αкакой размер vc

16. Размер оси квадрата и треугольника vc.

  • а) Каков размер vc осевого квадрата на плоскости?
  • б) Рассмотрим на плоскости прямоугольные треугольники, стороны которых параллельны осям координат с прямым углом, а прямой угол находится в левом нижнем углу. Каков размер риска этой семьи?

17.Rn\mathbb R^nРазмер vc замкнутой сферы. доказыватьRn\mathbb R^nРазмерность vc всех наборов замкнутых сфер в ,

18. Размерность vc эллипсоида.Rn\mathbb R^nКакова размерность vc множества всех эллипсоидов в ?

19. Размерность vc векторного пространства действительных функций. даRn\mathbb R^nконечномерное векторное пространство действительных функций,dim(F)=r<\dim(F)=r<\infty. ПредполагатьH\mathcal HДля набора гипотез:

H={{x:f(x)0}:fеF}.\mathcal H=\{\{x:f(x)\ge0\}:f\in F\}.

20. Размерность vc функции синуса. Рассмотрим семейство гипотез для функции синуса (пример 3.16):{xsin(юx):юеR}\{x\to\sin(\omega x):\omega\in\mathbb R\}

  • а) Докажите, что для любогоxеRx\in\mathbb Rточкаx,2x,3x,4xx,2x,3x,4xНе может быть разложен семейством синусоидальных функций.
  • (b) Докажите, что размерность vc семейства синусоидальных функций бесконечна. (Подсказка: докажите, что {2−i:i≤m} можно раздавить любым m>0)

21. Размерность vc объединения полупространств. данныйkkВерхняя граница vc-размерности класса гипотез, описываемых объединением полупространств.

22. Размерность vc пересечения полупространств. учитыватьkkВыпуклая полупространстваϱk\varrho_kсвоего рода. даетVCdim(ϱk)VCdim(\varrho_k)Верхние и нижние оценки .

23. Размерность vc концепции пересечения.

  • (а) Пустьϱ1\varrho_1иϱ2\varrho_2два концептуальных класса. для любого концептуального классаϱ={c1c2:c1еϱ1,c2еϱ}\varrho=\{c_1\cap c_2:c_1\in\varrho_1,c_2\in\varrho\},
Πϱ(m)Πϱ1(m)Πϱ2(m).(3.53)\Pi_\varrho(m)\le\Pi_{\varrho_1}(m)\Pi_{\varrho_2}(m).\qquad\qquad\qquad(3.53)
  • (б) установитьϱ\varrhoявляется классом понятий размерности vc d, множествоϱ\varrhoВсе понятия для s отϱ\varrho, класс понятий, образованный пересечением s≥1. доказалϱs\varrho_sРазмерность vc2dslog2(3s)2ds\log_2(3s). (Подсказка: для любогоx2,log2(3x)<9x/(2e)х≥2,\log_2(3x) )

24. Понятие объединения размерности vc. Пусть A и B — два набора функций, отображающих X в {0,1}, и предположим, что A и B имеют конечную размерность VC, VCdim(A) = dA, VCdim(B) = dB. Пусть C=A∪B — объединение A и B.

  • (a) Покажите, что для всех mΠϱ(m)ΠA(m)+ΠB(m)\Pi_\varrho(m)\le\Pi_\mathcal A(m)+\Pi_\mathcal B(m).
  • (b) Используя лемму Зауэра, доказывается, что когдаmdA+dB+2m\ge d_\mathcal A+d_\mathcal B+2час,Πϱ(m)<2m\Pi_\varrho(m)<2^m, и даетϱ\varrhoГраница размерности vc.

25. Размерность vc концептуального симметричного различия. для обоих наборовA\mathcal AиB\mathcal B,ПредполагатьAΔB\mathcal A\Delta\mathcal BвыражатьA\mathcal AиB\mathcal BРазность симметрии , т.е.AΔB=(AB)(AB)\mathcal A\Delta\mathcal B=(\mathcal A\cup\mathcal B)-(\mathcal A\cap\mathcal B). ПредполагатьH\mathcal Hимеет конечную размерность vcX\mathcal XНепустое семейство подмножеств. ПредполагатьA\mathcal AдаH\mathcal HЭлемент , определяетHΔA={XΔA:XеH}\mathcal H\Delta\mathcal A=\{X\Delta\mathcal A:X\in\mathcal H\}. показывать,

VCdim(HΔA)=VCdim(H).VC\dim(\mathcal H\Delta\mathcal A)=VC\dim(\mathcal H).

26. Симметричные функции. функция:{0,1}n{0,1}\{0,1\}^n\to\{0,1\}является симметричным, если его значение однозначно определяется количеством единиц во входных данных. Предполагатьϱ\varrhoпредставляет собой набор всех симметричных функций.

  • (а) определитьϱ\varrhoРазмерность vc .
  • (б) даетϱ\varrhoВерхняя и нижняя границы сложности выборки произвольного последовательного алгоритма обучения PAC.
  • (c) Обратите внимание, что любые предположенияhеϱh\in\varrhoможно использовать вектор(y0,y1,...,yn)е{0,1}n+1(y_0,y_1,...,y_n)\in\{0,1\}^{n+1}сказал, из которыхyiy_iимеетi1i 1в примереhhценность. Дизайн на этой основеϱ\varrhoпоследовательный алгоритм обучения.

27. Размерность vc нейронной сети.

Предполагатьϱ\varrhoдаRr\mathbb R^rКласс понятий верхнего измерения vc. с промежуточным слоемϱ\varrhoНейронная сеть определяется вRn\mathbb R^nВышеупомянутая концепция может быть представлена ​​направленным ациклическим графом, как показано на рисунке 3.7, входной узел является нижним узлом, а концепция используется между каждым узломcеϱc\in\varrhoпомечать.

заданный входной вектор(x1,...,xn)(x_1,...,x_n)Выражение следующее. Во-первых, каждыйnnвходные узлы отмечены какxiеRx_i\in\mathbb R. Далее, чтобы разрешитьuuПрименяется значение входного узла заднего фронтаcc, получить верхний узелuuотмечен какccзначение .

3.7.png

Рисунок 3.7Есть нейронная сеть с промежуточным слоем.

Обратите внимание, что из-заccЗначение находится в{0,1}\{0,1\}, такuuЗначение находится в{0,1}\{0,1\}середина. Значение верхнего узла или выходного узла также получается путем применения соответствующего понятия к значению узла, допускающего ребро к выходному узлу.

  • (а) ПустьH\mathcal Hозначает указанное вышеk2k\ge2Набор всех нейронных сетей с внутренними узлами. Докажите функцию ростаΠH(m)\Pi_\mathcal H(m)Его можно формально ограничить произведением функций роста множества гипотез, определенных на каждом промежуточном слое.

  • (b) использовать его для верхней границыϱ\varrhoРазмер vc нейронной сети (подсказка: вы можете использоватьm=2xlog2(xy)m>xlog2(ym)m=2x\log_2(xy)\Longrightarrow m>x\log_2(ym)правильноm1м≥1эффективный,x,y>0x, y>0иxy>4xy>4эффективный).

  • (с) установитьϱ\varrhoпороговая функцияϱ={sgn(j=1rwixj):WеRr}\varrho=\{sgn(\sum^r_{j=1}w_ix_j):W\in\mathbb R^r\}Определенное семейство концептуальных классов. датьkkиrrуказаноH\mathcal HВерхняя граница измерения vc.

28. Размерность vc выпуклой комбинации. ПредполагатьH\mathcal Hдля подчиненного входного пространстваX\mathcal Xсопоставить с{1,+1}\{−1,+1\}семейство функций, пустьTTявляется положительным целым числом. семейство функций данного определенияFT\mathcal F_TВерхняя граница размерности vc

F={sgn(t=1Tαtht):htеH,αt0,t=1Tαt1}.\mathcal F=\{sgn(\sum^T_{t=1}\alpha_th_t):h_t\in\mathcal H,\alpha_t\ge0,\sum^T_{t=1}\alpha_t\le1\}.

(Подсказка: вы можете использовать упражнение 3.27 и его решение).

29. Неограниченное измерение vc.

  • (a) Докажите, что если класс понятийϱ\varrhoСуществуют бесконечные измерения vc, тогда они не поддаются обучению.
  • (b) В стандартном сценарии обучения PAC алгоритм обучения сначала получает все примеры, а затем вычисляет свои гипотезы. В этом случае, как упоминалось ранее, класс концепций PAClearning бесконечной размерности vc невозможен.
    Теперь представьте себе другой сценарий, в котором алгоритм обучения может переключаться между рисованием дополнительных примеров и вычислениями. Цель этой задачи — продемонстрировать, что PAC-обучение возможно для некоторых концептуальных классов с бесконечными размерностями vc.
    Например, рассмотрим класс понятий подмножества всех натуральных чиселϱ\varrhoособые обстоятельства. У профессора Витреса есть идея для первого этапа алгоритма обучения. На первом этапе L рисует столько точек, что вероятность рисования точек за пределами наблюдаемого максимального значения M мала и с высокой достоверностью. Сможете ли вы реализовать идею профессора Витреса, описав второй этап алгоритма? Следует также показать, что L можно изучить с помощью pacϱ\varrho.

30. Случай, когда vc-мерное обобщение ограничено и достижимо. В этом упражнении мы покажем, что в достижимых условиях оценки, данные в следствии 3.19, могут быть улучшены доO(dlog(m/d)m)O(\frac{d\log(m/d)}{m}). Предполагая, что мы находимся в достижимом сценарии, т.е. Целевое понятие содержится в нашем гипотетическом классеH\mathcal Hсередина. Покажем, что если гипотеза с выборкойSDmS\sim\mathcal D^mпоследовательным, то для любогоϵ>0\epsilon>0 , mϵ8m\epsilon\ge8

P[R(h)>ϵ]2[2emd]d2mϵ/2.(3.54)\mathbb P[R(h)>\epsilon]\le2[\frac{2em}{d}]^d2^{-m\epsilon/2}.\qquad\qquad\qquad(3.54)
  • (а) ПустьHSH\mathcal H_S\subseteq\mathcal Hесть с образцомSSНепротиворечивое подмножество гипотез, пустьR^S(h)\hat R_S(h)выраженный относительно образцаSSэмпирическая ошибка , и будетS'S'определяется как другой изDm\mathcal D^mНезависимая выборка, взятая из . Докажите следующие неравенства для любогоh0еHSh_0\in\mathcal H_SУчредил:
P[suphеHSR^S(h)R^S'(h)>ϵ2]P[B(m,ϵ)>mϵ2]P[R(h0)>ϵ],\mathbb P[\sup_{h\in\mathcal H_S}|\hat R_S(h)-\hat R_{S'}(h)|>\frac{\epsilon}{2}]\ge\mathbb P[B(m,\epsilon)>\frac{m\epsilon}{2}]\mathbb P[R(h_0)>\epsilon],
  • (б) ДоказательствоP[B(m,ϵ)>mϵ2]12\mathbb P[B(m,\epsilon)>\frac{m\epsilon}{2}]\ge\frac{1}{2}. Используйте это неравенство и результат (а), чтобы доказать, что для любогоh0еHSh_0\in\mathcal H_S
P[R(h0)>ϵ]2P[suphеHSR^S(h)R^S'(h)>ϵ2].\mathbb P[R(h_0)>\epsilon]\le2\mathbb P[\sup_{h\in\mathcal H_S}|\hat R_S(h)-\hat R_{S'}(h)|>\frac{\epsilon}{2}].
  • (c) Вместо двух выборок мы можем взять выборку T размером 2m и разделить ее равномерно и случайным образом на S и S'. Правую часть части (б) можно переписать так:
P[suphеHSR^S(h)R^S'(h)>ϵ2]=PTD2m:T[S,S'][hеH:R^S(h)=0R^S'(h)>ϵ2].\mathbb P[\sup_{h\in\mathcal H_S}|\hat R_S(h)-\hat R_{S'}(h)|>\frac{\epsilon}{2}]=\underset{\underset{T\to[S,S']}{T\sim\mathcal D^{2m}:}}{\mathbb P}[\exists h\in\mathcal H:\hat R_S(h)=0\wedge\hat R_{S'}(h)>\frac{\epsilon}{2}].

Предполагатьh0h_0даR^T(h0)>ϵ2\hat R_T(h_0)>\frac{\epsilon}{2}гипотеза,l>mϵ2l>\frac{m\epsilon}{2}даh0h_0Общее количество ошибок для T, указывающее, что все ошибки попадают вS'S'Верхняя граница вероятности равна2l2^{-l}.

  • Часть (b) пункта (d) гласит, что для любогоhеHh\in\mathcal H
PTD2m:T[S,S'][R^S(h)=0R^S'(h)>ϵ2R^T(h0)]2l.\underset{\underset{T\to[S,S']}{T\sim\mathcal D^{2m}:}}{\mathbb P}[\hat R_S(h)=0\wedge\hat R_{S'}(h)>\frac{\epsilon}{2}|\hat R_T(h_0)]\le2^{-l}.

Используйте эту оценку, чтобы доказать, что любойhеHh\in\mathcal H

PTD2m:T[S,S'][R^S(h)=0R^S'(h)>ϵ2]2ϵm2.\underset{\underset{T\to[S,S']}{T\sim\mathcal D^{2m}:}}{\mathbb P}[\hat R_S(h)=0\wedge\hat R_{S'}(h)>\frac{\epsilon}{2}]\le2^{-\frac{\epsilon m}{2}}.
  • (e) Использовать и привязать к верхней границеPTD2m:T[S,S'][hеH:R^S(h)=0R^S'(h)>ϵ2]\underset{\underset{T\to[S,S']}{T\sim\mathcal D^{2m}:}}{\mathbb P}[\exists h\in\mathcal H:\hat R_S(h)=0\wedge\hat R_{S'}(h)>\frac{\epsilon}{2}]Завершите доказательство неравенства (3.54), показав, что можно получитьO(dlog(m/d)m)O(\frac{d\log(m/d)}{m})Граница порядка с высокой вероятностью обобщения.

31. Границы обобщения на основе чисел покрытия. ПредполагатьH\mathcal HбудетX\mathcal Xотображать на действительные числаyR\mathcal y\subseteq\mathbb RПодмножество семейства функций. для любогоϵ>0\epsilon>0 , LL_\inftyнормаH\mathcal HпокрытияN(H,ϵ)\mathcal N(\mathcal H,\epsilon)очень маленькийkеNk\in\mathbb N, так чтоhеHh\in\mathcal Hможно закруглить какϵ\epsilonизkkохват мяча, т. е. есть{h1,...,hk}H\{h_1,...,h_k\}\subseteq\mathcal H, так что для всехhеHh\in\mathcal H,существуетikя≤киhhi=maxxеXh(x)hi(x)ϵ||h-h_i||_\infty=\max_{x\in\mathcal X}|h(x)-h_i(x)|\le\epsilon. В частности, когдаH\mathcal Hявляется компактным множеством, радиус может бытьϵ\epsilonмячаH\mathcal Hограниченное покрытие извлекается из покрытия, поэтомуN\mathcal Nограничено.
Числа покрытия обеспечивают меру сложности класса функций: чем больше число покрытия, тем богаче семейство функций. Цель этой задачи — проиллюстрировать это, доказав границу обучения в случае квадрата потерь. позволятьD\mathcal DвыражатьX×Y\mathcal X\times\mathcal YРаспределение на , из которого можно извлечь помеченные примеры. Потом,hеHh\in\mathcal HОшибка обобщения для квадрата потерь определяется выражениемR(h)=R(x,y)D[(h(x)y)2]R(h)=\mathbb R_{(x,y)\sim\mathcal D}[(h(x)-y)^2]определение, которое для меченых образцовS=((x1,y1),...,(xm,ym))S=((x_1,y_1),...,(x_m,y_m))Эмпирическая ошибка определяется выражениемR^S(h)1mi=1m(h(xi)yi)2\hat R_S(h)-\frac{1}{m}\sum^m_{i=1}(h(x_i)-y_i)^2определение. Мы предполагаем, что это ограничено, т.е. существуетM>0M>0сделатьh(x)yM|h(x)−y|\le Mдля всех(x,y)еX×Y(x,y)\in\mathcal X\times\mathcal Y. Оценка обобщения для доказательства этой проблемы такова:

PSDm[suphеHR(h)R^S(h)ϵ]N(H,ϵ8M)2exp(mϵ22M4).(3.55)\underset{S\sim\mathcal D^m}{\mathbb P}[\sup_{h\in\mathcal H}|R(h)-\hat R_S(h)|\ge\epsilon]\le\mathcal N(\mathcal H,\frac{\epsilon}{8M})2\exp(\frac{-m\epsilon^2}{2M^4}).\qquad\qquad\qquad(3.55)

Доказательство основано на следующих шагах.

  • (а) ПустьLS=R(h)R^S(h)L_S=R(h)−\шляпа R_S(h), то для всехh1,h2еHh_1,h_2\in\mathcal Hи произвольно помеченные образцы со следующими неравенствами:
LS(h1)LS(h2)4Mh1h2.|L_S(h_1)-L_S(h_2)|\le4M||h_1-h_2||_\infty.
  • (б) ПредположенияH\mathcal HвозможноkkподмножествоB1,...,Bk\mathcal B_1,...,\mathcal B_kпокрытие, то естьH=B1...Bk\mathcal H=\mathcal B_1\cup...\cup\mathcal B_k. Затем докажите, что для любогоϵ\epsilon, имеет место следующая верхняя оценка:
PSDm[suphеBiR(h)R^S(h)ϵ]i=1kPSDm[hеBiLS(h)ϵ].\underset{S\sim\mathcal D^m}{\mathbb P}[\sup_{h\in\mathcal B_i}|R(h)-\hat R_S(h)|\ge\epsilon]\le\sum^k_{i=1}\underset{S\sim\mathcal D^m}{\mathbb P}[\sum_{h\in\mathcal B_i}|L_S(h)\ge\epsilon|].
  • в) Наконец, пустьk=N(H,ϵ8M)k=\mathcal N(\mathcal H,\frac{\epsilon}{8M})это радиусϵ/(8M)\epsilon/(8M),отH\mathcal Hцентр, обложкаh1,...,hkh_1,...,h_k, обозначенный частью (а) для всехiе[k]i\in[k],
PSDm[R(h)R^S(h)ϵ2]PSDm[LS(hi)ϵ2]\underset{S\sim\mathcal D^m}{\mathbb P}[|R(h)-\hat R_S(h)|\ge\frac{\epsilon}{2}]\le\underset{S\sim\mathcal D^m}{\mathbb P}[|L_S(h_i)|\ge\frac{\epsilon}{2}]

И применим неравенство Хёффдинга (теорема D.2) для доказательства (3.55).