Chapter 7 Nonuniform Learnability

машинное обучение

7. Неравномерная обучаемость

   Концепции обучаемости PAC, обсуждаемые в книге до сих пор, позволяют размеру выборки зависеть от параметров точности и достоверности, но они согласуются с точки зрения правил маркировки и лежащего в основе распределения данных. Поэтому обучаемые классы в этом отношении ограничены (они должны иметь конечную размерность vc, как утверждается в теореме 6.7). В этой главе мы рассмотрим более легкую и слабую концепцию обучаемости. Мы обсуждаем полезность этих понятий и предоставляем функции, которые определяют обучаемые классы понятий, используя их.

   Мы начинаем обсуждение с определения концепции «неравномерной обучаемости», которая позволяет размеру выборки зависеть от предположения, с которым сравнивается учащийся. Затем мы характеризуем неравномерную обучаемость и показываем, что неоднородная обучаемость является строгим ослаблением независимой обучаемости PAC. Мы также показываем, что достаточным условием неравномерной обучаемости являетсяH\mathcal Hявляется счетным объединением гипотетических классов, каждый из которых сходится равномерно. Эти результаты будут продемонстрированы в разделе 7.2 путем введения новой парадигмы обучения под названием минимизация структурных рисков (SRM). В разделе 7.3 мы определяем парадигму SRM для класса счетных гипотез, что приводит к парадигме минимальной длины описания (MDL). Парадигма MDL обеспечивает формальный аргумент в пользу индуктивного философского принципа, известного как бритва Оккама. Далее, в разделе 7.4, мы вводим согласованность как более слабое понятие обучаемости. Наконец, мы обсудим значение и полезность различных концепций обучаемости.

7.1 Неравномерная обучаемость

«Неравномерная обучаемость» позволяет размеру выборки быть неравномерным для разных гипотез конкурирующих учащихся. Скажем, гипотезаhhс другим предположениемh'h^\primeконкурировать(ϵ,δ)(\epsilon,\delta), вероятность которого больше, чем(1δ)(1-\delta),

Ld(h)Ld(h')+ϵ.L_d(h)\le L_d(h^\prime)+\epsilon .

В обучаемости PAC понятие «конкурентоспособность» не очень полезно, так как мы ищем гипотезу с абсолютно низким риском (в достижимом случае) или гипотезу, сравнимую с гипотезой в нашем классе (в агностическом случае). ) для достижения минимального риска по сравнению с допущением с низким риском. Следовательно, размер выборки зависит только от параметров точности и достоверности. Однако при неравномерной обучаемости допустимы размеры выборки видаmH(ϵ,δ,h)m_\mathcal H(\epsilon,δ,h); то есть это зависит еще и от того, с кем мы конкурируемhh. официально,

Определение 7.1

Если есть метод обучения А и функцияmHNUL:(0,1)2×HNm_\mathcal H^{NUL}:(0,1)^2\times \mathcal H\to \mathbb N так что всемϵ,δе(0,1)\epsilon,\delta \in (0,1)и всеhеHh\in \mathbb H,еслиmmHNUL(ϵ,δ,h)m\ge m_\mathcal H^{NUL}(\epsilon,\delta,h)Тогда для каждого распределения D дляSDmS\backsim D^mВероятность выбора не менее1δ1-\delta. тогда устанавливается гипотезаH\mathcal Hявляется неравномерно обучаемым. он думает

LD(A(S))LD(h)+ϵ.L_D(A(S))\le L_D(h)+\epsilon .

На этом этапе может быть полезно просмотреть определение независимой обучаемости PAC (определение 3.3):

Если существует алгоритм обучения A и функцияmH:(0,1)2Nm_\mathcal H:(0,1)^2\to \mathbb Nтак что всемϵ,δе(0,1)\epsilon,\delta \in (0,1)и все распределения D, еслиmmH(ϵ,δ)m\ge m_\mathcal H(\epsilon,\delta),правильноSDmS\backsim D^mВероятность выбора не менее1δ1-\delta. тогда устанавливается гипотезаH\mathcal H агностический PAC поддается обучению, думает он

LD(A(S))minh'еHLD(h')+ϵ.L_D(A(S))\le \underset {h^\prime\in \mathcal H}{min} L_D(h^\prime)+\epsilon .

Заметим, что это означает, что для всехhеHh\in H

LD(A(S))LD(h)+ϵ.L_D(A(S))\le L_D(h)+\epsilon .

В обоих типах обучаемости мы требуем, чтобы выходная гипотеза конкурировала со всеми другими гипотезами в классе.(ϵ,δ)(\epsilon,\delta). Но разница между этими двумя концепциями обучаемости заключается в том, зависит ли размер выборки отA(S)A(S)Предположения сравнения ошибок. Обратите внимание, что неравномерная обучаемость является ослаблением независимой обучаемости PAC. То есть, если класс является агностическим PAC-обучаемым, то он также неоднородно обучаем.

7.1.1 Представление неравномерной обучаемости

   Теперь наша цель — описать неравномерную обучаемость. В предыдущей главе мы обнаружили явное свойство PAC-обучаемых классов, показав, что класс бинарных классификаторов является независимым PAC-обучаемым тогда и только тогда, когда его размерность конечна. В следующей теореме мы обнаруживаем отличительную черту неоднородных обучаемых классов для задач бинарной классификации.

Теорема 7.2: Гипотетические классы для бинарных классификаторовH\mathcal Hявляется неравномерно обучаемым тогда и только тогда, когда он является счетным объединением классов агностических PAC обучаемых гипотез.

Доказательство теоремы 7.2 опирается на результаты следующих независимых интересов:
Теория 7.3. ПредположимH\mathcal H— гипотетический класс, который можно записать как счетное объединение гипотетических классов,H=nеNHn\mathcal H=\bigcup _{n∈N}\mathcal H_n, каждый, из которыхHn\mathcal H_nВсе имеют равномерную сходимость. Тогда он неравномерно обучаем.
Напомним, что в главе 4 мы показали, что равномерной сходимости достаточно для обучаемости агностических PAC. Теория 7.3 обобщает этот результат на неравномерную обучаемость. В следующем разделе мы докажем эту теорему, представив новую парадигму обучения. Теперь докажем теорему 7.2.

Доказательство теоремы 7.2.

Сначала предположимH=nеNHn\mathcal H=\bigcup _{n∈N}\mathcal H_n, каждыйHn\mathcal H_nВсе они независимы от PAC. Используя Фундаментальную теорему статистического обучения, доказывается, что каждыйHn\mathcal H_nВсе имеют равномерную сходимость. Поэтому, используя теорему 7.3, рассмотримH\mathcal Hявляется неравномерно обучаемым.
   Для другого направления предположимH\mathcal HНеравномерная обучаемость может использовать некоторый алгоритм А. для всехnеNn\in N, сделатьHn={hеH:mHNUL(1/8,1/7,h)n}\mathcal H_n=\{h\in \mathcal H:m_{\mathcal H}^{NUL}(1/8,1/7,h)\le n\}. Очевидно,H=nеNHn\mathcal H=\bigcup _{n∈N}\mathcal H_n. Кроме того, используйтеmHNULm_{\mathcal H}^{NUL}Из определения мы знаем, что для любого распределенияDDудовлетворитьHnH_nпредположение о достижимости, вSDnS\sim D^nВероятность не менее6/76/7случае, мы получаемLD(A(S))1/8L_D(A(S))\le 1/8, Используя Фундаментальную теорему статистического обучения, что означаетHn\mathcal H_nРазмерность VC должна быть конечной, поэтомуHn\mathcal H_nявляется агностическим PAC обучаемым.
   Следующий пример показывает, что неравномерная обучаемость является строгим ослаблением обучаемости независимого PAC, то есть существуют гипотетические классы, которые неравномерно обучаемы, но не обучаемы независимому PAC.

Пример 7.1

Рассматривайте домен экземпляра какX=RX= \mathbb Rпроблема бинарной классификации. для всехnеNn∈\mathbb NПредполагатьHn\mathcal H_nзаnnКласс полиномиальных классификаторов степени, т. е.Hn\mathcal H_nЭто в формеh(x)=sign(p(x))h(x)=sign(p(x))Коллекция всех классификаторов, гдеp:RRp:R\to Rдаnnполином степени. ПредполагатьH=nеNHn\mathcal H=\bigcup _{n\in \mathbb N}\mathcal H_n,следовательно,H\mathcal HдаRRКласс всех полиномиальных классификаторов выше. легко проверитьVCdim(H)=VCdim(\mathcal H)=\inftyиVCdim(Hn)=n+1VCdim(\mathcal H_n)=n+1(См. упражнение 12.) Следовательно,H\mathcal Hне поддается обучению PAC, а согласно теореме 7.3H\mathcal Hявляется неравномерно обучаемым.

7.2 Минимизация структурных рисков

Пока что мы указалиH\mathcal HМы думаем, что классовая гипотеза кодирует наши предшествующие знания.H\mathcal HКлассовая гипотеза является хорошим предсказателем для поставленной учебной задачи. Другой способ выразить наше предварительное знание — указатьH\mathcal HВнутреннее предпочтение гипотез. В парадигме минимизации структурных рисков (SRM) мы сначала предполагаемH\mathcal Hможно записать какH=nеNHn\mathcal H=\bigcup _{n\in \mathbb N}\mathcal H_nЗатем укажите весовую функцию,w:N[0,1]w:N\to [0,1], который присваивает вес каждому классу гипотез,Hn\mathcal H_n, так что чем выше вес, тем сильнее предпочтение класса гипотез. В этом разделе мы обсудим, как использовать эти априорные данные для обучения. В следующем разделе мы опишем несколько важных схем взвешивания, включая минимальную длину описания.

В частности, предположимH\mathcal H— гипотетический класс, который можно записать какH=nеNHn\mathcal H=\bigcup _{n\in \mathbb N}\mathcal H_n. Например,H\mathcal Hможет быть классом всех полиномиальных классификаторов, где каждыйHn\mathcal H_nдаnnКласс полиномиальных классификаторов степени (см. пример 7.1). Предполагая, что для каждогоnn,своего родаHn\mathcal H_nИмеет последовательную конвергенцию (см. Определение 4.3 в главе 4) и имеет функции сложности образцаmHnUC(ϵ,δ)m^{UC}_{\mathcal H_n}(\epsilon,\delta)Определим также функциюϵn:N×(0,1)(0,1)\epsilon_n :\mathbb N\times(0,1)\to (0,1)Зависит от

ϵn(m,δ)=min{ϵе(0,1):mHnUC(ϵ,δ)m}.(7.1)\epsilon_n(m,\delta) = min\{\epsilon \in(0,1):m^{UC}_{\mathcal H_n}(\epsilon,\delta)\le m\}.(7.1)

Другими словами, у нас есть фиксированный размер выборки.mm, мы заинтересованы в этом, используяmmВыборочная выборка, наименьшая возможная верхняя граница разрыва между эмпирическим риском и истинным риском.
Схождение от равномерного иϵn\epsilon_nИз определения видно, что для всехmmиδδ, с вероятностью не менее1δ1- δсуществуетSDMS\sim D^MО вариантах, которые у нас есть

hеHn,LD(h)LS(h)ϵn(m,δ).(7.2)\forall h\in \mathcal H_n,|L_\mathcal D(h)-L_S(h)|\le \epsilon_n(m,\delta).(7.2)

Предполагатьw:N[0,1]w:N\to [0,1]такая функцияn=1w(n)1\sum^\infty_{n=1}w(n)\le 1.мы будемwwгипотетический классH1,H2\ Mathcal h_1, \ mathcal h_2 \ cdot \ cdot \ cdot \ cdotвесовая функция вкл. . Такая весовая функция может отражать важность учащегося для каждого класса гипотез или некоторую меру сложности различных классов гипотез. еслиH\mathcal HдаNNконечное объединение гипотетических классов, то одни и те же веса могут быть просто1/N1/NПрисваивается всем гипотетическим классам. Такие равные веса не соответствуют априорным предпочтениям ни для одного из гипотетических классов. Конечно, если кто-то считает (как априорное знание), что определенный класс гипотез с большей вероятностью будет содержать правильную целевую функцию, то ему следует присвоить больший вес, чтобы отразить это априорное знание. когдаHHзаключается в том, что равномерное взвешивание невозможно, если предполагается (счетно) бесконечное объединение классов, но могут работать многие другие схемы взвешивания. Например, вы можете выбратьw(n)=6число Пи2n2ш (п) = \ гидроразрыва {6} {π ^ 2n ^ 2}илиw(n)=2nш (п) = 2 ^ {- п}. Позже в этой главе мы предоставим еще один удобный способ определения весовых функций с помощью языка описания.
  Правила SRM следуют подходу «минимизации границ». Это означает, что цель парадигмы — найти гипотезу, минимизирующую некоторую верхнюю границу истинного риска. Граница, которую хочет минимизировать правило SRM, дается в следующей теореме.

Теорема 7.4.

Предполагатьw:N[0,1]w:N\to [0,1]такая функцияn=1w(n)1\sum^\infty_{n=1}w(n)\le 1.ПредполагатьH\mathcal H— гипотетический класс, который можно записать какH=nеNHn\mathcal H=\bigcup _{n\in \mathbb N}\mathcal H_n, где для каждогоnn,Hn\mathcal H_nУдовлетворить функцию сложности выборкиmHnUC(ϵ,δ)m^{UC}_{\mathcal H_n}(\epsilon,\delta)последовательная сходимость. позволятьϵn\epsilon_nкак определено в уравнении (7.1). Затем для каждогоδе(0,1)δ\in(0,1)и распространениеDD, с вероятностью не менее1δ1−\дельтаоSDmS\sim D^mвыбор, следующие оценки (одновременно) для всехnеNn\in NиhеHnh\in \mathcal H_nРезерв.

LD(h)LS(h)ϵn(m,w(n)δ).|L_\mathcal D(h)-L_S(h)|\le \epsilon_n(m,w(n)\cdot \delta).

Следовательно, для каждогоδе(0,1)δ\in(0,1)и распространениеDD, с вероятностью не менее1δ1−\дельтаон думает

hеHn,LD(h)LS(h)+minn:hеHnϵn(m,w(n)δ).(7.3)\forall h\in \mathcal H_n, L_\mathcal D(h)\le L_S(h)+\underset {n:h\in\mathcal H_n}{min}\epsilon_n(m,w(n)\cdot \delta).(7.3)
доказывать

для каждогоnn,определениеδn=w(n)δ\delta_n=w(n)\delta. Примените скорость, указанную в уравнении (7.2), ко всемnnСохраняя предположение о равномерной сходимости, получаем, что если предварительно зафиксироватьnn, то вероятность не менее1δ1−δвыборSDmS\sim D^m.

hеHn,LD(h)LS(h)ϵn(m,δn).\forall h\in \mathcal H_n, |L_\mathcal D(h)-L_S(h) |\le\epsilon _n(m,\delta_n).

существуетn=1,2,,п=1,2,\кдот\кдот\кдот\кдот,применяется и разграничивается. , получаем вероятность не менее1nδn=1δnw(n)1δ1−\sum_n\delta_n=1−δ\sum_nw(n)\ge 1−\deltaПредыдущая формула применима ко всемnn, что является нашим доказательством.
выражать

n(h)=min{n:hеHn},(7.4)n(h)=min\{n:h\in\mathcal H_n\},(7.4)

Тогда уравнение (7.3) означает

LD(h)LS(h)+ϵn(h)(m,w(n(h))δ).L_\mathcal D(h)\le L_S(h)+\epsilon_{n(h)}(m,w(n(h))\cdot\delta).

Парадигма SRM ищет h, который минимизирует эту границу, как описано в следующем псевдокоде:

             Минимизация структурных рисков (SRM)
Предыдущие знания:
H=nHn\mathcal H=\bigcup_n\mathcal H_nвHn\mathcal H_nиmHnUCw:N[0,1]m^{UC}_{\mathcal H_n}w:\mathbb N\to[0,1] Сходимость равномерно, в которойnw(n)1\sum_nw(n)\le 1
определение:ϵn\epsilon_nКак показано в уравнении (7.1),n(h)n(h)как показано в уравнении (7.4)
Вход: тренировочный наборSDmS\sim \mathcal D^m,Уверенностьδ\delta
вывод:hеargminhеH[LS(h)+ϵn(h)(m,w(n(h))δ)]h\in argmin_{h\in\mathcal H}[L_S(h)+\epsilon_{n(h)}(m,w(n(h))\cdot\delta)]

В отличие от парадигмы ERM, обсуждавшейся в предыдущих главах, мы больше не заботимся только об эмпирическом риске.LS(h)L_S(h), но чтобы уменьшить ошибку оценки, мы хотим сравнить некоторые из наших предубеждений в отношении низкого эмпирического риска с нашимиϵn(h)(m,w(n(h))δ)\epsilon_{n(h)}(m,w(n(h))\cdot\delta)Предубеждения меньших категорий обмениваются.
Далее мы показываем, что парадигма SRM может использоваться для неравномерного обучения каждого класса, счетного объединения гипотетических классов, которые сходятся равномерно.

Теорема 7.5.

ПредполагатьH\mathcal Hявляется гипотетическим классом таким, чтоH=nеNHn\mathcal H=\bigcup_{n\in\mathbb N}\mathcal H_n, каждый, из которыхHn\mathcal H_nИмеет сложность выборкиmHnUCm^{UC}_{\mathcal H_n}последовательная сходимость. позволятьw:N[0,1]w:N\to[0,1]сделатьw(n)=6n2число Пи2ш (п) = \ гидроразрыва {6} {п ^ 2π ^ 2}. Затем, используя правила и тарифы SRM,H\mathcal Hявляется неравномерно обучаемым.

mHNUL(ϵ.δ,h)mHn(h)UC(ϵ/2,6δ(число Пиn(h))2)m^{NUL}_{\mathcal H}(\epsilon.\delta,h)\le m^{UC}_{\mathcal H_{n(h)}}\Big(\epsilon/2,\frac{6\delta}{(\pi n(h))^2}\Big)
доказывать

ПредполагатьAAречь идет о весовой функцииwwалгоритм СРМ. для всехhеHh\in H,ϵ\epsilonиδ\delta,ПредполагатьmmHn(h)UCm\ge m^{UC}_{\mathcal H_{n(h)}}. использоватьnw(n)=1\sum_nw(n)=1Тот факт, что мы можем применить теорему 7.4, чтобы получить с вероятностью не менее1δ1−δвыборSDmS\sim \mathcal D^m, каждый из насh'еHh^\prime\in\mathcal Hимеют,

LD(h').L_D(h^\prime)\le .

Вышеизложенное особенно верно для Гипотезы А, возвращаемой правилом SRM. По определению SRM получаем

LD(A(S))minh'[LS(h')+ϵn(h')(m,w(n(h'))δ)]LS(h)+ϵn(h)(m,w(n(h'))δ).L_D(A(S))\le \underset {h^\prime}{min}[L_S(h^\prime)+\epsilon_{n(h^\prime)}(m,w(n(h^\prime))\delta)]\le L_S(h)+\epsilon_{n(h)}(m,w(n(h^\prime))\delta).

Наконец, еслиmmHn(h)UC(ϵ/2,w(n(h)δ)m\ge m^{UC}_{\mathcal H_{n(h)}} (\epsilon/2,w(n(h)\delta)затем явноϵn(h)(m,w(n(h))δ)ϵ/2\epsilon_{n(h)}(m,w(n(h))\delta)\le \epsilon/2, Также от каждогоHn\mathcal H_nИсходя из последовательной сходимости , мы получаем вероятность большую, чем1δ1-δ ,

LS(h)LD(h)+ϵ/2L_S(h)\le L_{\mathcal D}(h)+\epsilon/2

Объединяя все предыдущие результаты, получаемLD(A(S))LD(h)+ϵL_\mathcal D(A(S))\le L_{\mathcal D}(h)+\epsilon , что является нашим доказательством.

Заметим, что предыдущая теорема также доказывает теорему 7.3.

Замечание 7.2

(У неравномерной обучаемости бесплатных обедов не бывает) Мы показали, что любое счетное объединение конечных VC-мерных классов неравномерно обучаемо. Оказывается, для любого бесконечного множества областейXX,XXКлассы всех вышеперечисленных бинарных функций не являются счетными объединениями конечномерных классов. Мы оставляем доказательство этого утверждения в качестве (нетривиального) упражнения (см. упражнение 5). Таким образом, в некотором смысле неоднородное обучение справедливо и для теоремы о небесплатном обеде: т. е. пока область не конечна, для всех детерминированных бинарных классификаторов не существует неоднородного обучаемого (хотя для каждого такого классификатора , существует простой алгоритм для его изучения — ERM для гипотетических классов, которые содержат только этот классификатор).

Интересно сравнить результаты неравномерной обучаемости, приведенные в теореме 7.5, с задачей независимого ПАК, обучающего только любой конкретной HN. неровныйH\mathcal HУчащиеся класса имеют слабые предварительные знания или предвзятость - этоH\mathcal HИщите модели внутри классов, а не сосредотачивайтесь на конкретномHn\mathcal H_n. Цена ослабления предшествующих знаний связана с любым конкретнымhеHh\in \mathcal HДля соревнований требуется повышенная сложность образца. Для конкретной оценки этого разрыва рассмотрим задачу бинарной классификации с нулевой или единичной потерей. Предположим, что для всех nVCdim(Hn)=nVCdim(\mathcalH_n)=n. так какmHn(h)UC(ϵ,δ)=Cn+log(1/δ)ϵ2m^{UC}_{\mathcal H_{n(h)}}(\epsilon,\delta)=C\frac {n+log(1/\delta)}{\epsilon^2}(где C — константа, фигурирующая в теореме 6.8), простое вычисление показывает, что

mHNUL(ϵ,δ,h)mHnUC(ϵ/2,δ)4C2log(2n)ϵ2.m_{\mathcal H}^{NUL}(\epsilon,\delta,h)-m^{UC}_{\mathcal H_{n}}(\epsilon/2,\delta)\le 4C\frac {2log(2n)}{\epsilon^2}.

То есть передать предварительные знания учащегося из цели включения.hhКонкретныйHn\mathcal H_nСтоимость релаксации в счетный союз зависит отhhИндекс первого класса, в котором он находится. Эта стоимость увеличивается с индексом категории, который можно интерпретировать как отражение ценности знания правильной расстановки приоритетов вH\mathcal H.

7.3 Минимальная длина описания и бритва Оккама

ПредполагатьH\mathcal Hесть класс счетных гипотез. Тогда мы можем положитьH\mathcal HЗаписывается как счетное объединение мономорфных классов, т.е.H=nеN{hn}\mathcal H=\bigcup _{n\in\mathbb N}\{h_n\}. Согласно неравенству Хёффдинга (лемма 4.5) каждый мономорфный класс имеет равномерную сходимость, скорость сходимостиmUC(ϵ,δ)=log(2/δ)2ϵ2m^{UC}(\epsilon,\delta)=\frac {log(2/\delta)}{2\epsilon^2}. Следовательно, функция в уравнении (7.1)ϵn\epsilon_nстатьϵn(m,δ)=log(2/δ)2m\epsilon_n(m,\delta)=\frac {log(2/\delta)}{2m}, правило SRM становится

argminhnеH[LS(h)+log(w(n))+log(2/ϵ)2m].\underset {h_n\in\mathcal H}{argmin}\bigg[L_S(h)+\sqrt {\frac {-log(w(n))+log(2/\epsilon)}{2m}} \bigg].

Эквивалентно, мы можемwwсчитается отH\mathcal Hприбыть[0,1][0,1]функция , то правило SRM становится

argminhеH[LS(h)+log(w(h))+log(2/ϵ)2m].\underset {h\in\mathcal H}{argmin}\bigg[L_S(h)+\sqrt {\frac {-log(w(h))+log(2/\epsilon)}{2m}} \bigg].

Таким образом, в этом случае априорные знания полностью определяются весами, которые мы присваиваем каждой гипотезе. Мы присваиваем более высокие веса гипотезам, которые, по нашему мнению, более верны, и в алгоритмах обучения мы предпочитаем гипотезы с более высокими весами.

В этом разделе мы обсудим определенияH\mathcal HОсобенно удобен метод для весовой функции на , которая выводится из длины описания гипотезы. С классом гипотез может возникнуть вопрос, как мы описываем или представляем каждую гипотезу в классе. Естественно, мы изменим некоторые языки описания. Это может быть английский язык, или язык программирования, или какая-то математическая формула. В любом из этих языков описания состоят из конечных цепочек символов (или знаков), взятых из фиксированного алфавита. Теперь формализуем эти понятия.

ПредположениеH\mathcal H— это гипотетический класс, который мы хотим описать. исправлен некоторый ограниченный набор символов\sum(или «символы»), которые мы называем алфавитом. Для конкретики положим={0,1}\sum=\{0,1\}. Строка из\sumКонечная последовательность символов для начала, например,о=(0,1,1,1,0)\sigma=(0,1,1,1,0)длина55Нить. мы используемо|\sigma|Указывает длину строки. Набор всех строк конечной длины представлен как*\sum^* . H\mathcal HЯзык описания функцииd:H*d:\mathcal H\to\sum^*, будетH\mathcal Hкаждый членhhсопоставить со строкойd(h)d(h).d(h)d(h)называется "hhописание", длина которого определяетсяh|h|Выражать.

Мы потребуем, чтобы язык описания был беспрефиксным, т. е. для каждого отдельногоhh,h'h\prime , d(h)d(h)нетd(h')d(h\prime)префикс. То есть мы не допускаем никаких строкd(h)d(h)оказывается любой более длинной строкойd(h')d(h\prime)первоеh| h |символ. Коллекция строк без префикса имеет следующие комбинированные свойства:
Лемма 7.6 (неравенство Крафта), еслиS{0,1}*S\subseteq \{0,1\}^*представляет собой набор строк без префикса, то

оеS12о1.\sum_{\sigma\in S}\frac{1}{2^{|\sigma|}}\le 1.

доказывать ОпределениеSSРаспределение вероятностей участников выглядит следующим образом: при неоднократном подбрасывании непредвзятой монеты решка помечается как00и11, пока результирующая последовательность не будетSSчлен; в этот момент остановитесь. для каждогооеS\sigma \in S, ПредполагатьP(о)P(\sigma)генерировать строку для процедурыо\sigmaВероятность. Обратите внимание, потому чтоSSне имеет префикса, поэтому для каждогооеS\sigma \in S, если результат подбрасывания монеты следуето\sigmaпозже, только если результирующая последовательность равнао\sigmaкогда мы остановимся. Следовательно, для каждогооеS\sigma \in S, мы получилиP(о)=12оP(\sigma) =\frac {1}{2^{|σ|}}. Поскольку вероятности в сумме не превышают 1, наше доказательство заканчивается.
Согласно неравенству Крафта предполагается, что классH\mathcal HЛюбой язык описания без префикса дает весовую функцию для этого гипотетического классаwwМы просто установимw(H)=12hw(H)=\frac{1}{2^|h|}. Это наблюдение сразу же приводит к следующим выводам:

Теорема 7.7.

ПредполагатьH\mathcal H— гипотетический класс, пустьd:H{0,1}*d:\mathcal H\to \{0,1\}^∗даH\mathcal HЯзык описания без префиксов для . Затем для каждого объема выборкиmm, каждый доверительный параметрδ>0\delta>0, каждое распределение вероятностейD\mathcal D, вероятность больше, чем1δ1−\дельтаоSDmS\sim \mathcal D^mВыбор у нас есть,

hеH,LD(h)LS(h)+h+ln(2/δ)2m,\forall h\in \mathcal H,L_{\mathcal D}(h)\le L_S(h)+\sqrt\frac{|h|+ln(2/\delta)}{2m},

вh|h|даd(h)d(h)длина.
доказыватьвыберитеw(H)=12hw(H)=\frac{1}{2^|h|}, применяя теорему 7.4 вϵn(m,δ)=ln(2/δ)2m\epsilon_n(m,\delta)=\sqrt\frac{ln(2/\delta)}{2m},Уведомлениеln(2h)=hln(2)<hln(2^{|h|})=|h| ln(2)<|h|.
Как и в случае теоремы 7.4, этот результат показывает, чтоH\mathcal HПарадигма обучения - с учетом обучающего набораSS, гипотеза поискаhеH h\in \mathcal Hпредел минимизации ,LS(h)+h+ln(2/δ)2m L_S(h)+\sqrt\frac{|h|+ln(2/\delta)}{2m}. В частности, предлагается взвешивать эмпирические риски, чтобы сократить длину описания. Это приводит к парадигме обучения с минимальной длиной описания.

       Минимальная длина описания (MDL)
Предыдущие знания:
H\mathcal Hкласс счетных гипотез
H\mathcal HЗависит от{0,1}\{0,1\}Описания языков без префиксов на
для всехhеHh\in \mathcal H,h\mid h\midдаhhпредставление длины
Вход: тренировочный наборSDmS\sim D^m,Уверенностьδ\delta
вывод:hеargminhеH[LS(h)+h+ln(2/ϵ)2m].h\in argmin_{h\in\mathcal H}\bigg[L_S(h)+\sqrt {\frac {\mid h \mid+ln(2/\epsilon)}{2m}} \bigg].

Пример 7.3

позволятьH\mathcal Hвсе предсказанные классы, которые могут быть реализованы с использованием некоторого языка программирования, такого как C++. Давайте представим каждую программу (в алфавите) с помощью двоичной строки, полученной при выполнении команды gzip в программе.{0,1}\{0,1\}создать язык описания без префиксов). Потом,h\mid h \mid это сhhДлина (в битах) вывода gzip при запуске соответствующей программы C++.

7.3.1 Бритва Оккама

Теорема 7.7.

Это говорит о том, что если две гипотезы имеют одинаковый эмпирический риск, истинный риск, описывающий более короткую гипотезу, может быть ограничен меньшим значением. Следовательно, этот результат можно рассматривать как передачу философского сообщения:
Краткие объяснения (то есть гипотезы меньшей длины) имеют тенденцию быть более эффективными, чем длинные объяснения.
Это хорошо известный принцип, известный как бритва Оккама, названный в честь английского логика XIV века Уильяма Оккама, которому приписывают то, что он первым сформулировал его. Здесь мы предлагаем возможное обоснование этого принципа. Неравенство теоремы 7.7 показывает, что, полагаяhhЧем сложнее (в смысле более длинного описания), тем большему размеру выборки он должен соответствовать, чтобы гарантировать, что он имеет меньший реальный риск.LD(h)L_{\mathcal D}(h).

С другой стороны, наши утверждения о бритве Оккама кажутся немного ошибочными. В контексте, когда в науке обычно используется бритва Оккама, язык, сложность которого измеряется, является естественным языком, тогда как здесь мы можем рассматривать любой абстрактный язык описания. Предположим, у нас есть два предположенияh'\mid h^\prime \midСравниватьh\mid h \midзначительно меньше. Согласно предыдущим результатам, если оба находятся в данном обучающем набореSSтакая же ошибка наh\mid h \midИстинная ошибка может быть намного выше, чемh'\mid h^\prime \midистинная ошибка , поэтому следует предпочестьh'\mid h^\prime \midвместоh\mid h \mid. Однако мы можем выбрать другой язык описания, например, длину33строка, назначеннаяhh, присваивая строку длиной 100000h'h^\prime. Внезапно люди предпочитаютhhвместоh'h^\prime. но это то же самоеhhиh'h^\prime, мы поспорили два предложения назадh'h^\primeдолжно быть предпочтительным. Где здесь ловушка?

На самом деле между гипотезами нет присущей общности различий. Ключевым аспектом здесь является порядок зависимостей между исходным выбором языка (или гипотезой о предпочтениях) и обучающей выборкой. Как мы знаем из базовой границы Хеффдинга (уравнение (4.2)), если мы делаем какие-либо предположения до того, как увидим данные, то мы гарантированно получим довольно малый член ошибки оценкиLD(h)LS(h)+ln(2/δ)2mL_{\mathcal D}(h)\le L_S(h)+\sqrt\frac{ln(2/\delta)}{2m}. Выбор языка описания (или, что то же самое, некоторого взвешивания гипотезы) — это слабая форма гипотезы приверженности. Вместо того, чтобы придерживаться одной гипотезы, мы распространяем нашу приверженность на многих. Наша граница обобщения верна до тех пор, пока она выполняется независимо от обучающих выборок. Точно так же, как выбор отдельных гипотез для оценки выборкой может быть произвольным, выбор языка описания также произволен.

7.4 Другие концепции обучаемости — последовательность

Позволяя требуемому размеру выборки зависеть не только отϵ,δ,h\эпсилон, \дельта, ч, но также зависит от генеративного распределения вероятностейD\mathcal DБазовые данные (используемые для создания обучающих выборок и определения риска) могут еще больше ослабить концепцию обучаемости. Этот тип гарантии производительности достигается путем изучения последовательного понятия правил.

Определение 7.8 (Непротиворечивость)

ПредполагатьZZэто набор доменов,PPдаZZНабор распределений вероятностей наH\mathcal Hявляется гипотетическим классом. если есть функцияmHCON:(0,1)2×H×PNm _ {\ mathcal H} ^ {CON}: (0,1) ^ 2 \ times \ mathcal H \ times P \ to \ mathbb N, то правило обученияAAиHHиPPпоследовательно, для каждогоϵ,δе(0,1)\эпсилон, \дельта \in(0,1), каждыйhеHh\in H,всеDеP\mathcal D \in P, еслиmmHNUL(ϵ,δ,h,D)m\ge m^{NUL}_{\mathcal H}(\epsilon,\delta,h,\mathcal D), то вероятность не менее1δ1−\дельтаоSDmS\sim \mathcal D^m выбор, он считает

LD(A(S))LD(h)+ϵ.L_\mathcal D(A(S))\le L_\mathcal D(h)+\epsilon.

еслиPPэто множество всех дистрибутивов2^2,мы говоримAAзаHHв целом соответствует.

Конечно, понятие согласованности является ослаблением нашего предыдущего понятия неравномерной обучаемости. Очевидно, что если алгоритм изучает класс неравномерноH\mathcal H, что также в целом соответствует этому классу. Релаксация является строгой, потому что существуют последовательные правила обучения, которые не успешны для неконформных учащихся. Например, алгоритм Память, определенный в Примере 7.4 позже.N\mathbb Nсогласуется для всех классов бинарного классификатора на . Однако, как мы обсуждали ранее, этот класс не является неравномерно обучаемым.

Пример 7.4

Рассмотрим память алгоритма прогнозирования классификации, определенную следующим образом. Алгоритм хранит обучающие примеры, и в заданной контрольной точкеxxВ случае предсказания всех меток, присутствующих в обучающей выборкеxxМетка большинства в экземпляре (если отсутствует в обучающем набореxxнапример, предсказать некоторые фиксированные метки по умолчанию). Можно показать (см. упражнение 6), что для любого счетного поляXXи ограниченный набор этикетокYY(Говоря о потере «ноль-один»), алгоритм памяти в целом непротиворечив.
Интуитивно не очевидно, следует ли считать алгоритм памяти обучаемым, потому что ему не хватает аспекта обобщения, то есть использования наблюдаемых данных для предсказания меток для невидимых примеров. Тот факт, что память является непротиворечивым алгоритмом для всех классов функций в любом наборе счетных полей, ставит под вопрос полезность гарантий непротиворечивости. Кроме того, внимательные читатели могут заметить, что мы22«Плохие ученики», которые приводят к переобучению, представленные в главе, на самом деле являются алгоритмами памяти. В следующем разделе мы обсудим значение различных концепций обучаемости и вернемся к теореме о бесплатном обеде с точки зрения различных определений обучаемости.


1. В литературе непротиворечивость часто определяется с использованием понятия вероятностной сходимости (соответствующей слабой непротиворечивости) или почти достоверной сходимости (соответствующей сильной непротиворечивости).
2. В общем случае мы предполагаем, что Z задано некоторое подмножество сигма-алгебры Ω, и под «всеми распределениями» мы понимаем все распределения, для которых Ω включено в связанное с ними семейство измеримых подмножеств.

7.5 Обсудите различные концепции обучаемости

Мы дали три определения обучаемости и теперь обсудим их полезность. Часто полезность математического определения зависит от того, для чего оно нам нужно. Поэтому мы перечисляем несколько возможных целей, которых можно достичь, определяя обучаемость, и обсуждаем полезность различных определений в свете этих целей.
Каковы риски усвоенных предположений?
Первая возможная цель получения гарантий производительности для алгоритмов обучения — ограничить риск вывода предикторов. Здесь как обучение PAC, так и неоднородное обучение дают нам верхнюю границу истинного риска эмпирического предположения об обучении, основанном на риске. Гарантии непротиворечивости не дают таких ограничений. Однако набор проверки (как описано в главе 11) всегда можно использовать для оценки риска вывода предиктора.
Сколько примеров нужно для сравнения сH\mathcal Hтак же хорошо, как лучшая гипотеза в ?
При решении задачи обучения возникает естественный вопрос: сколько примеров нам нужно собрать, чтобы изучить ее. Здесь PAC Learning дает четкий ответ. Однако для неравномерного обучения и согласованности мы не знаем обучения заранее.H\mathcal HСколько примеров нужно. При неравномерном обучении это число зависит отH\mathcal HЛучшее предположение в последовательности, это также зависит от базового дистрибутива. В этом смысле PAC-обучение — единственное полезное определение обучаемости. С другой стороны, мы должны иметь в виду, что даже если ошибка оценки нашего изученного предиктора мала, еслиH\mathcal HПри больших ошибках аппроксимации риск также может быть большим. Поэтому даже гарантия PAC не дает нам четкого ответа на вопрос, «сколько примеров нужно, чтобы быть таким же хорошим, как оптимальное значение предсказания Байеса». Это отражает тот факт, что полезность обучения PAC зависит от качества наших предварительных знаний.
Гарантии PAC также могут помочь нам понять, что мы должны делать дальше, если наш алгоритм обучения возвращает очень рискованную гипотезу, потому что мы можем ограничить часть ошибки, вызванной ошибкой оценки, и, таким образом, узнать, какая часть ошибки связана с ошибкой аппроксимации. . Если ошибка аппроксимации велика, мы знаем, что следует использовать другой класс гипотез. Точно так же, если неоднородный алгоритм терпит неудачу, мы можем рассмотреть различные весовые функции (подмножества) предположений. Однако, когда алгоритм консенсуса терпит неудачу, мы не знаем, происходит ли это из-за ошибки оценки или ошибки аппроксимации. Кроме того, даже если мы определим, что существует проблема с членом ошибки оценки, мы не знаем, сколько еще примеров необходимо, чтобы сделать ошибку оценки малой.
Как научиться? Как выразить предварительные знания?
Возможно, наиболее полезным аспектом теории обучения является ответ на вопрос «как учиться». Определение PAC-обучения создает ограничения обучения (через теорему о небесплатном обеде) и необходимость в предварительных знаниях. Это дает нам четкий способ кодирования предшествующих знаний путем выбора класса гипотез, и как только этот выбор сделан, у нас есть общее правило обучения — ERM. Определение неравномерной обучаемости также позволяет определитьH\mathcal HЧеткий способ кодирования предшествующих знаний с помощью весов гипотез (подмножеств). Как только этот выбор сделан, у нас снова есть общее правило обучения — SRM. Правила SRM также имеют преимущества в задачах выбора модели, поскольку априорные знания являются частичными. Мы подробно остановились на выборе модели в главе 11, а здесь мы приводим простой пример.
Рассмотрим задачу подбора одномерного многочлена к данным, то есть наша цель — изучить функциюh:RRh:\mathbb R\to\mathbb R, априори рассмотрим гипотетический класс полиномов. Однако мы можем быть не в состоянии определить, какая степень d даст наилучшие результаты для нашего набора данных:ddможет плохо соответствовать данным (т. е. иметь большие ошибки аппроксимации), в то время как высокая степеньddМожет привести к переоснащению (т.е. будет иметь большую ошибку оценки). Далее мы описываем22,33и1010Результат подгонки полинома степени к тому же обучающему набору.

7.1.pngЛегко видеть, что эмпирический риск уменьшается с увеличением степени. Следовательно, если мы выберемHHэто все1010класс полиномов степени, то правило ERM для этого класса будет выводить1010полиномом степени и будет соответствовать. С другой стороны, если мы выберем гипотетический класс, который слишком мал, например, до22полинома степени, ERM будет страдать от недообучения (т. е. больших ошибок аппроксимации). Напротив, мы можем использовать правило SRM для всех наборов многочленов, в то время какH\mathcal HПорядок подмножеств ранжирует его, что дает кубический полином, поскольку комбинация его эмпирического риска и границы его ошибки оценки является наименьшей. Другими словами, правила SRM позволяют нам выбрать правильную модель на основе самих данных. Цена, которую мы платим за эту гибкость (помимо небольшого увеличения ошибки оценки оптимальности по сравнению с обучением PAC), заключается в том, что мы не знаем заранее, сколько примеров необходимо для соответствияH\mathcal HКонкурс на лучшую гипотезу в .
В отличие от концепций обучаемости PAC и неравномерной обучаемости, определение согласованности не дает естественной парадигмы обучения или способа кодирования предшествующих знаний. Фактически, во многих случаях никаких предварительных знаний не требуется вообще. Например, мы видим, что даже алгоритмы запоминания (которые интуитивно не следует называть алгоритмами обучения) являются непротиворечивыми алгоритмами для любого класса, определенного над счетным полем и конечным набором меток. Это означает, что согласованность является очень слабым требованием.

Какой алгоритм обучения выбрать?
Кто-то может возразить, что хотя согласованность является более слабым требованием, алгоритмы обученияX\mathcal XприбытьY\mathcal YВсе наборы функций для также согласованы, что дает нам гарантию, что для достаточного количества обучающих примеров мы всегда будем такими же хорошими, как байесовский оптимальный предиктор. Следовательно, если у нас есть два алгоритма, один из которых непротиворечивый, а другой непротиворечивый, мы должны выбрать непротиворечивый алгоритм. Однако этот аргумент проблематичен по двум причинам. Во-первых, для большинства «естественных» распределений мы можем наблюдать на практике, что сложность выборки алгоритмов консенсуса настолько велика, что в каждом практическом случае мы не можем получить достаточно выборок, чтобы воспользоваться этой гарантией. Во-вторых, для любого изX\mathcal XЛюбому PAC или непоследовательному ученику нетрудно прийти к классу функций Y. В частности, рассмотрим счетные поляX\mathcal X, ограниченный набор метокY\mathcal Yи гипотетический классH\mathcal H,отX\mathcal XприбытьY\mathcal YФункция. Мы можем использовать следующий простой трюк, чтобы сделатьH\mathcal Hлюбого неоднородного ученика сX\mathcal XприбытьY\mathcal YКлассы всех классификаторов согласованы: получив обучающую выборку, мы сначала запустим на обучающей выборке неоднородный обучающий элемент, а затем получим оценку истинного риска обучения предиктора. Если эта граница достаточно мала, мы закончили. В противном случае возвращаемся к алгоритму памяти. Эта простая модификация делает алгоритмX\mathcal XприбытьY\mathcal Yодинаковы во всех функциях. Поскольку любой алгоритм легко согласуется, может быть неразумно выбирать один алгоритм вместо другого только из соображений согласованности.

7.5.1 Пересмотр принципа «Нет бесплатного обеда»

Напомним, что теорема об отсутствии бесплатного обеда (теорема 5.1 в главе 5) означает, что ни один алгоритм не может изучить все классы классификаторов над бесконечным полем. Напротив, в этой главе мы видели, что алгоритмы памяти согласуются со всеми классами классификаторов над счетно бесконечными полями. Чтобы понять, почему эти два утверждения не противоречат друг другу, давайте сначала рассмотрим формальное утверждение «теоремы об отсутствии бесплатных обедов».

ПредполагатьX\mathcal Xсчетно бесконечное поле,Y={±1}\mathcal Y =\{±1\}. Теорема об отсутствии бесплатных обедов означает: для любого алгоритмаAAи размер тренировочного набораmm,существуетX\mathcal Xраспределения и функции наh*:XYh^*: \mathcal X\to\mathcal Y, если вы получитеh*h^*Примеры обучающих примеров с помеченными IIDmm,ПотомAAМожет вернуть классификатор с большей ошибкой.

Непротиворечивость памяти означает: дляX\mathcal Xкаждое распределение и функция маркировки наh*:XYh^*: \mathcal X\to\mathcal Y, есть размерmmобучающая выборка (в зависимости от распределения иh*h^*), так что если Память получит хотя быmmНапример, он, скорее всего, вернет классификатор с небольшой ошибкой.

Мы видим, что в теореме об отсутствии бесплатных обедов мы сначала определяем размер обучающей выборки, а затем находим функцию распределения и метки, неблагоприятную для этого размера обучающей выборки. Напротив, в гарантии непротиворечивости мы сначала определяем функцию распределения и маркировки, и только затем находим размер обучающей выборки, который достаточно велик, чтобы изучить эту конкретную функцию распределения и маркировки.

7.6 Резюме

Мы вводим неравномерную обучаемость в ослабление обучаемости PAC и согласованность в ослабление неравномерной обучаемости. Это означает, что даже классы бесконечномерных VC могут быть изучены в несколько более слабом смысле обучаемости. Мы обсудим полезность различных определений обучаемости.
Для класса счетных гипотез можно применить схему минимальной длины описания, где предпочтение отдается гипотезам с более короткими описаниями по принципу бритвы Оккама. Интересным примером является гипотетический класс всех предикторов, которые мы можем реализовать на C++ (или любом другом языке программирования), которые мы можем изучить (неоднородно), используя схему MDL.
Все предикторы, которые мы можем реализовать на C++, представляют собой один мощный класс и, вероятно, содержат все, что мы хотим изучить на практике. Возможность пройти курс впечатляет, и кажется, что эта глава должна быть последней в книге. Это не так из-за вычислительного аспекта обучения: времени выполнения, необходимого для применения изученных правил. Например, чтобы реализовать парадигму MDL для всех программ на C++, нам нужно выполнить полный поиск по всем программам на C++, который будет продолжаться вечно. даже во всех10001000При реализации всех программ на C++ с длиной описания 2 бита парадигма ERM требует210002^{1000}исчерпывающий поиск гипотез. В то время как примерная сложность изучения класса составляет всего1000+log(2/δ)ϵ2\frac{1000+log(2/\delta)}{\epsilon^2}, но время выполнения21000\le 2^{1000}Это огромное число — намного больше, чем количество атомов в видимой Вселенной. В следующей главе мы формально определим вычислительную сложность обучения. Во второй части этой книги мы рассмотрим гипотетические классы, которые могут эффективно реализовать схему ERM или SRM.

7.7 Библиографические примечания

Наше определение неравномерной обучаемости связано с определением алгоритма OCCAM в Blumer, Ehrenfeucht, Haussler & Warmuth (1987). Концепция SRM возникла из (Вапник, Червоненкис, 1974, Вапник, 1995). Концепция MDL возникла благодаря (Rissanen 1978, Rissanen 1983). Вапник (1995) обсуждает взаимосвязь между SRM и MDL. Эти понятия также тесно связаны с понятием регуляризации (например, Тихонов (1943)).
Мы подробно рассмотрим регуляризацию во второй части книги. Концепция согласованности оценок восходит к Фишеру (1922). Наше введение в непротиворечивость следует за Steinwart & Christmann (2008), которые также вывели несколько теорем о том, что бесплатный обед невозможен.

7.8 Упражнения

  1. доказать, что для любого конечного классаH\mathcal Hи любой язык описанияd:H{0,1}*д:Н\к\{0,1\}^*, H\mathcal HРазмерность VC не более2sup{d(h):hеH}2sup\{|d(h)| :h\in \mathcal H\}– Максимальная длина описания предиктора в единицахH\mathcal H. Кроме того, еслиddявляется описанием без префикса, тоVCdim(H)sup{d(h):hеH}VCdim(H)\le sup\{|d(h)| :h\in \mathcal H\}.
  2. ПредполагатьH={hn:nеN}\mathcal H=\{h_n:n\in \mathbb N\}— бесконечно счетный гипотетический класс для бинарной классификации. показать, что невозможноH\mathcal H— бесконечно счетный гипотетический класс для бинарной классификации. показать, что это невозможноH\mathcal HГипотезы присваивают веса, а гипотезы присваивают веса, таким образом
  • Используйте эти веса, чтобы учиться неравномерноH\mathcal H. То есть весовая функцияw:H[0,1]w:\mathcal H\to [0,1]должны быть соблюдены условияhеHw(h)1\sum_{h\in \mathcal H}w(h)\le 1.
  • Веса будут монотонно инвариантны. То есть, еслиi<ji<j,Такw(hi)w(hj)w(h_i)\le w(h_j)
    • Рассмотрим гипотетический классH=n=1\mathcal H= \bigcup_{n=1}^\infty, где каждыйnеNn\in \mathbb N,Hn\mathcal H_nограничено. Найдите весовую функциюw:H[0,1]w:\mathcal H\to[0,1]такhеHw(h)1\sum_{h\in\mathcal H}w(h)\le 1Поэтому для всехhеHh\in\mathcal H,w(h)w(h)Зависит отn(h)=min{n:hеHn}n(h)=min\{n:h\in\mathcal H_n\}иHn(h)|\mathcal H_{n(h)}|Конечно.
  • (*) определить такую ​​функциюww, когда всеHn\mathcal H_nсчетно (возможно, бесконечно).
  1. ПредполагатьH\mathcal Hдля гипотетического класса. для любогоhеHh\in\mathcal H, согласно фиксированному языку описания, установитьH| H |выражатьH\mathcal Hдлина описания. Рассмотрим парадигму обучения MDL, в которой алгоритм возвращает:
hSеargminhеH[LS(h)+h+ln(2/δ)2m],h_S\in arg\underset {h\in\mathcal H}{min}\Big[L_S(h)+\sqrt{\frac{|h|+ln(2/\delta)}{2m}}\Big],

вSSразмерmmобразец. для любогоB>0B>0,ПредполагатьHB=hеH:hB\mathcal H_B={h\in\mathcal H:|h|\le B}и определить

hB*=argminhеHBLD(h).h^*_B=arg\underset {h\in\mathcal H_B}{min}L_D(h).

доказыватьLD(hS)LD(hB*)L_D(h_S)−L_D(h^∗_B)A граница B, параметр доверияδ\deltaи тренировочный наборmmразмер.

  • Примечание. Эта граница известна в литературе как неравенство оракула: мы хотим оценить нашу связь с эталонным классификатором (или «оракулом»).hB*ч ^ * _ Bкак хорошо по сравнению с
  1. В этой задаче мы хотим показать результат небесплатного обеда для неравномерной обучаемости: т. Е. В любом бесконечном поле класс всех функций не поддается обучению даже при ослабленных неоднородных вариантах обучения.

Напомним, что если существует функцияmHNUL:(0,1)2×HNm^{NUL}_\mathcal H:(0,1)^2\times\mathcal H\to\mathbb N, то алгоритмAAИзучение классов гипотез неравномерноH\mathcal H, для каждогоϵ,δе(0,1)\эпсилон, \дельта\в (0,1)и для всехhеHh\in\mathcal H, еслиmmHNUL(ϵ,δ,H)m≥ m^{NUL}_\mathcal H(\epsilon, \delta, \mathcal H), то для каждого распределенияD\mathcal D, с вероятностью не менее1δ1− \дельтаоSDmS\sim D^mвыбор, он считает

LD(A(S))LD(h)+ϵL_\mathcal D(A(S))\le L_\mathcal D(h)+\epsilon

Если такой алгоритм существует, то говорятH\mathcal Hявляется неравномерно обучаемым.

  1. позволятьAAстатьH\mathcal Hкласс неоднородных учащихся. для каждогоnеNn\in\mathbb NопределениеHnA={hеH:mNUL(0.1,0.1,H)n}\mathcal H^A_n=\{h\in\mathcal H:m^{NUL}(0.1,0.1,\mathcal H)\le n\} . доказать каждый классHn\mathcal H_nВсе размеры VC ограничены.
  2. доказать, что если классH\mathcal Hнеравномерно обучаема, то существует классHn\mathcal H_n, так чтоH=nеNHn\mathcal H=\bigcup _{n\in\mathbb N} \mathcal H_n, для всехnеNn\in\mathbb N, VCdim(Hn)(\mathcal H_n)ограничено.
  3. ПредполагатьH\mathcal H— класс, разбивающий бесконечные множества. Затем для каждой последовательности классов(Hn:nеN)(\mathcal H_n:n\in\mathbb N)сделатьH=nеNHn\mathcal H=\bigcup _{n\in\mathbb N} \mathcal H_n, есть некоторыеnnДля VCdim(Hn)=(\mathcal H_n)=\infty .

Подсказка: задан классH\mathcal H, он разбивает некоторые бесконечные множестваKK, и серия занятий(Hn:nеN)(\mathcal H_n:n\in\mathbb N), каждый с конечной размерностью VC, из определяющих подмножествKnKK_n\subseteq Kначать, для всехnn,Kn>VCdim(Hn)|K_n|>VCdim(\mathcal H_n), для любогоnmn\neq m,KnKm=K_n\cap K_m=\empty, Теперь для каждого такогоKnKnвыбрать функциюfn:Kn{0,1}f_n:K_n\to \{0,1\}тогда нетhеHnh\in\mathcal H_nс доменомKn K_nВверхfnf_nПоследовательный. Наконец, определитеf:X{0,1}f:X\to\{0,1\}путем объединения этихfnf_nи доказатьfе(HnеNHn)f\in(\mathcal H\setminus \bigcup_{n\in\mathbb N}\mathcal H_n).
4. Построить интервал из единицы[0,1][0,1]прибыть{0,1}\{0,1\}класс функцийH1\mathcal H_1, который является неоднородным обучаемым, но не обучаемым PAC.
5. Построить подчиненный интервал[0,1][0,1]прибыть{0,1}\{0,1\}функция классаH2H_2, он не является неравномерно обучаемым.
6. В этой задаче мы хотим показать, что алгоритм Память является последовательным обучаемым для каждого класса (бинарных) функций над любым счетным полем. ПредполагатьX\mathcal Xсчетное поле,D\mathcal DзаX\mathcal Xраспределение вероятностей на .

  1. Предполагать{xi:iеN}\{x_i:i\in\mathbb N\} даX\mathcal Xперечисление элементов, поэтому для всехiji\le j,D({xi})D({xj})\mathcal D(\{x_i\})\le \mathcal D(\{x_j\}). доказывать
limninD({xi})=0.\underset {n\to\infty}{lim}\sum_{i\ge n}\mathcal D(\{x_i\})=0.
  1. дать любойϵ>0\epsilon>0доказать существованиеϵD>0\epsilon_D>0,тем самым
D({xеX:D({x})<ϵD})<ϵ.\mathcal D(\{x\in\mathcal X:\mathcal D(\{x\})<\epsilon_D\})<\epsilon.
  1. доказательство для всехη>0\eta > 0,еслиnnдля всехi>ni>nдаD({xi})<ηD(\{x_i\})<\eta, то для всехmеNm\in\mathbb N,
PSDm[xi:(D({xi})>ηиxiS)]neηm.\underset {S\sim\mathcal D^m}{\mathbb P}[\exist x_i:(D(\{x_i\})>\eta and x_i\notin S)]\le ne^{-\eta m }.
  1. сделать вывод, что еслиX\mathcal Xсчетно, то дляX\mathcal XКаждое распределение вероятностей наD\mathcal D, есть функцияmD:(0,1)×(0,1)Nm_\mathcal D:(0,1)\times(0,1)\to\mathbb N затем для каждогоϵ,δ>0\epsilon,\delta >0еслиm>mD(ϵ,δ)m>m_\mathcal D(\epsilon,\delta),
PSDm[D({x:xS})>ϵ]<δ.\underset {S\sim\mathcal D^m}{\mathbb P}[\mathcal D(\{x:x\notin S\})>\epsilon]<\delta .
  1. Показано, что Память является последовательным обучаемым для каждого класса (бинарных) функций над любым счетным полем.