7. Неравномерная обучаемость
Концепции обучаемости PAC, обсуждаемые в книге до сих пор, позволяют размеру выборки зависеть от параметров точности и достоверности, но они согласуются с точки зрения правил маркировки и лежащего в основе распределения данных. Поэтому обучаемые классы в этом отношении ограничены (они должны иметь конечную размерность vc, как утверждается в теореме 6.7). В этой главе мы рассмотрим более легкую и слабую концепцию обучаемости. Мы обсуждаем полезность этих понятий и предоставляем функции, которые определяют обучаемые классы понятий, используя их.
Мы начинаем обсуждение с определения концепции «неравномерной обучаемости», которая позволяет размеру выборки зависеть от предположения, с которым сравнивается учащийся. Затем мы характеризуем неравномерную обучаемость и показываем, что неоднородная обучаемость является строгим ослаблением независимой обучаемости PAC. Мы также показываем, что достаточным условием неравномерной обучаемости являетсяявляется счетным объединением гипотетических классов, каждый из которых сходится равномерно. Эти результаты будут продемонстрированы в разделе 7.2 путем введения новой парадигмы обучения под названием минимизация структурных рисков (SRM). В разделе 7.3 мы определяем парадигму SRM для класса счетных гипотез, что приводит к парадигме минимальной длины описания (MDL). Парадигма MDL обеспечивает формальный аргумент в пользу индуктивного философского принципа, известного как бритва Оккама. Далее, в разделе 7.4, мы вводим согласованность как более слабое понятие обучаемости. Наконец, мы обсудим значение и полезность различных концепций обучаемости.
7.1 Неравномерная обучаемость
«Неравномерная обучаемость» позволяет размеру выборки быть неравномерным для разных гипотез конкурирующих учащихся. Скажем, гипотезас другим предположениемконкурировать, вероятность которого больше, чем,
В обучаемости PAC понятие «конкурентоспособность» не очень полезно, так как мы ищем гипотезу с абсолютно низким риском (в достижимом случае) или гипотезу, сравнимую с гипотезой в нашем классе (в агностическом случае). ) для достижения минимального риска по сравнению с допущением с низким риском. Следовательно, размер выборки зависит только от параметров точности и достоверности. Однако при неравномерной обучаемости допустимы размеры выборки вида; то есть это зависит еще и от того, с кем мы конкурируем. официально,
Определение 7.1
Если есть метод обучения А и функциятак что всеми все,еслиТогда для каждого распределения D дляВероятность выбора не менее. тогда устанавливается гипотезаявляется неравномерно обучаемым. он думает
На этом этапе может быть полезно просмотреть определение независимой обучаемости PAC (определение 3.3):
Если существует алгоритм обучения A и функциятак что всеми все распределения D, если,правильноВероятность выбора не менее. тогда устанавливается гипотезаагностический PAC поддается обучению, думает он
Заметим, что это означает, что для всех
В обоих типах обучаемости мы требуем, чтобы выходная гипотеза конкурировала со всеми другими гипотезами в классе.. Но разница между этими двумя концепциями обучаемости заключается в том, зависит ли размер выборки отПредположения сравнения ошибок. Обратите внимание, что неравномерная обучаемость является ослаблением независимой обучаемости PAC. То есть, если класс является агностическим PAC-обучаемым, то он также неоднородно обучаем.
7.1.1 Представление неравномерной обучаемости
Теперь наша цель — описать неравномерную обучаемость. В предыдущей главе мы обнаружили явное свойство PAC-обучаемых классов, показав, что класс бинарных классификаторов является независимым PAC-обучаемым тогда и только тогда, когда его размерность конечна. В следующей теореме мы обнаруживаем отличительную черту неоднородных обучаемых классов для задач бинарной классификации.
Теорема 7.2: Гипотетические классы для бинарных классификаторовявляется неравномерно обучаемым тогда и только тогда, когда он является счетным объединением классов агностических PAC обучаемых гипотез.
Доказательство теоремы 7.2 опирается на результаты следующих независимых интересов:
Теория 7.3. Предположим— гипотетический класс, который можно записать как счетное объединение гипотетических классов,, каждый, из которыхВсе имеют равномерную сходимость. Тогда он неравномерно обучаем.
Напомним, что в главе 4 мы показали, что равномерной сходимости достаточно для обучаемости агностических PAC. Теория 7.3 обобщает этот результат на неравномерную обучаемость. В следующем разделе мы докажем эту теорему, представив новую парадигму обучения. Теперь докажем теорему 7.2.
Доказательство теоремы 7.2.
Сначала предположим, каждыйВсе они независимы от PAC. Используя Фундаментальную теорему статистического обучения, доказывается, что каждыйВсе имеют равномерную сходимость. Поэтому, используя теорему 7.3, рассмотримявляется неравномерно обучаемым.
Для другого направления предположимНеравномерная обучаемость может использовать некоторый алгоритм А. для всех, сделать. Очевидно,. Кроме того, используйтеИз определения мы знаем, что для любого распределенияудовлетворитьпредположение о достижимости, вВероятность не менееслучае, мы получаем, Используя Фундаментальную теорему статистического обучения, что означаетРазмерность VC должна быть конечной, поэтомуявляется агностическим PAC обучаемым.
Следующий пример показывает, что неравномерная обучаемость является строгим ослаблением обучаемости независимого PAC, то есть существуют гипотетические классы, которые неравномерно обучаемы, но не обучаемы независимому PAC.
Пример 7.1
Рассматривайте домен экземпляра какпроблема бинарной классификации. для всехПредполагатьзаКласс полиномиальных классификаторов степени, т. е.Это в формеКоллекция всех классификаторов, гдедаполином степени. Предполагать,следовательно,даКласс всех полиномиальных классификаторов выше. легко проверитьи(См. упражнение 12.) Следовательно,не поддается обучению PAC, а согласно теореме 7.3является неравномерно обучаемым.
7.2 Минимизация структурных рисков
Пока что мы указалиМы думаем, что классовая гипотеза кодирует наши предшествующие знания.Классовая гипотеза является хорошим предсказателем для поставленной учебной задачи. Другой способ выразить наше предварительное знание — указатьВнутреннее предпочтение гипотез. В парадигме минимизации структурных рисков (SRM) мы сначала предполагаемможно записать какЗатем укажите весовую функцию,, который присваивает вес каждому классу гипотез,, так что чем выше вес, тем сильнее предпочтение класса гипотез. В этом разделе мы обсудим, как использовать эти априорные данные для обучения. В следующем разделе мы опишем несколько важных схем взвешивания, включая минимальную длину описания.
В частности, предположим— гипотетический класс, который можно записать как. Например,может быть классом всех полиномиальных классификаторов, где каждыйдаКласс полиномиальных классификаторов степени (см. пример 7.1). Предполагая, что для каждого,своего родаИмеет последовательную конвергенцию (см. Определение 4.3 в главе 4) и имеет функции сложности образцаОпределим также функциюЗависит от
Другими словами, у нас есть фиксированный размер выборки., мы заинтересованы в этом, используяВыборочная выборка, наименьшая возможная верхняя граница разрыва между эмпирическим риском и истинным риском.
Схождение от равномерного иИз определения видно, что для всехи, с вероятностью не менеесуществуетО вариантах, которые у нас есть
Предполагатьтакая функция.мы будемгипотетический классвесовая функция вкл. . Такая весовая функция может отражать важность учащегося для каждого класса гипотез или некоторую меру сложности различных классов гипотез. еслидаконечное объединение гипотетических классов, то одни и те же веса могут быть простоПрисваивается всем гипотетическим классам. Такие равные веса не соответствуют априорным предпочтениям ни для одного из гипотетических классов. Конечно, если кто-то считает (как априорное знание), что определенный класс гипотез с большей вероятностью будет содержать правильную целевую функцию, то ему следует присвоить больший вес, чтобы отразить это априорное знание. когдазаключается в том, что равномерное взвешивание невозможно, если предполагается (счетно) бесконечное объединение классов, но могут работать многие другие схемы взвешивания. Например, вы можете выбратьили. Позже в этой главе мы предоставим еще один удобный способ определения весовых функций с помощью языка описания.
Правила SRM следуют подходу «минимизации границ». Это означает, что цель парадигмы — найти гипотезу, минимизирующую некоторую верхнюю границу истинного риска. Граница, которую хочет минимизировать правило SRM, дается в следующей теореме.
Теорема 7.4.
Предполагатьтакая функция.Предполагать— гипотетический класс, который можно записать как, где для каждого,Удовлетворить функцию сложности выборкипоследовательная сходимость. позволятькак определено в уравнении (7.1). Затем для каждогои распространение, с вероятностью не менееовыбор, следующие оценки (одновременно) для всехиРезерв.
Следовательно, для каждогои распространение, с вероятностью не менееон думает
доказывать
для каждого,определение. Примените скорость, указанную в уравнении (7.2), ко всемСохраняя предположение о равномерной сходимости, получаем, что если предварительно зафиксировать, то вероятность не менеевыбор.
существуетприменяется и разграничивается. , получаем вероятность не менееПредыдущая формула применима ко всем, что является нашим доказательством.
выражать
Тогда уравнение (7.3) означает
Парадигма SRM ищет h, который минимизирует эту границу, как описано в следующем псевдокоде:
Минимизация структурных рисков (SRM) Предыдущие знания: виСходимость равномерно, в которой определение:Как показано в уравнении (7.1),как показано в уравнении (7.4) Вход: тренировочный набор,Уверенность вывод: |
---|
В отличие от парадигмы ERM, обсуждавшейся в предыдущих главах, мы больше не заботимся только об эмпирическом риске., но чтобы уменьшить ошибку оценки, мы хотим сравнить некоторые из наших предубеждений в отношении низкого эмпирического риска с нашимиПредубеждения меньших категорий обмениваются.
Далее мы показываем, что парадигма SRM может использоваться для неравномерного обучения каждого класса, счетного объединения гипотетических классов, которые сходятся равномерно.
Теорема 7.5.
Предполагатьявляется гипотетическим классом таким, что, каждый, из которыхИмеет сложность выборкипоследовательная сходимость. позволятьсделать. Затем, используя правила и тарифы SRM,является неравномерно обучаемым.
доказывать
Предполагатьречь идет о весовой функцииалгоритм СРМ. для всех,и,Предполагать. использоватьТот факт, что мы можем применить теорему 7.4, чтобы получить с вероятностью не менеевыбор, каждый из насимеют,
Вышеизложенное особенно верно для Гипотезы А, возвращаемой правилом SRM. По определению SRM получаем
Наконец, еслизатем явно, Также от каждогоИсходя из последовательной сходимости , мы получаем вероятность большую, чем ,
Объединяя все предыдущие результаты, получаем, что является нашим доказательством.
Заметим, что предыдущая теорема также доказывает теорему 7.3.
Замечание 7.2
(У неравномерной обучаемости бесплатных обедов не бывает) Мы показали, что любое счетное объединение конечных VC-мерных классов неравномерно обучаемо. Оказывается, для любого бесконечного множества областей,Классы всех вышеперечисленных бинарных функций не являются счетными объединениями конечномерных классов. Мы оставляем доказательство этого утверждения в качестве (нетривиального) упражнения (см. упражнение 5). Таким образом, в некотором смысле неоднородное обучение справедливо и для теоремы о небесплатном обеде: т. е. пока область не конечна, для всех детерминированных бинарных классификаторов не существует неоднородного обучаемого (хотя для каждого такого классификатора , существует простой алгоритм для его изучения — ERM для гипотетических классов, которые содержат только этот классификатор).
Интересно сравнить результаты неравномерной обучаемости, приведенные в теореме 7.5, с задачей независимого ПАК, обучающего только любой конкретной HN. неровныйУчащиеся класса имеют слабые предварительные знания или предвзятость - этоИщите модели внутри классов, а не сосредотачивайтесь на конкретном. Цена ослабления предшествующих знаний связана с любым конкретнымДля соревнований требуется повышенная сложность образца. Для конкретной оценки этого разрыва рассмотрим задачу бинарной классификации с нулевой или единичной потерей. Предположим, что для всех n. так как(где C — константа, фигурирующая в теореме 6.8), простое вычисление показывает, что
То есть передать предварительные знания учащегося из цели включения.КонкретныйСтоимость релаксации в счетный союз зависит отИндекс первого класса, в котором он находится. Эта стоимость увеличивается с индексом категории, который можно интерпретировать как отражение ценности знания правильной расстановки приоритетов в.
7.3 Минимальная длина описания и бритва Оккама
Предполагатьесть класс счетных гипотез. Тогда мы можем положитьЗаписывается как счетное объединение мономорфных классов, т.е.. Согласно неравенству Хёффдинга (лемма 4.5) каждый мономорфный класс имеет равномерную сходимость, скорость сходимости. Следовательно, функция в уравнении (7.1)стать, правило SRM становится
Эквивалентно, мы можемсчитается отприбытьфункция , то правило SRM становится
Таким образом, в этом случае априорные знания полностью определяются весами, которые мы присваиваем каждой гипотезе. Мы присваиваем более высокие веса гипотезам, которые, по нашему мнению, более верны, и в алгоритмах обучения мы предпочитаем гипотезы с более высокими весами.
В этом разделе мы обсудим определенияОсобенно удобен метод для весовой функции на , которая выводится из длины описания гипотезы. С классом гипотез может возникнуть вопрос, как мы описываем или представляем каждую гипотезу в классе. Естественно, мы изменим некоторые языки описания. Это может быть английский язык, или язык программирования, или какая-то математическая формула. В любом из этих языков описания состоят из конечных цепочек символов (или знаков), взятых из фиксированного алфавита. Теперь формализуем эти понятия.
Предположение— это гипотетический класс, который мы хотим описать. исправлен некоторый ограниченный набор символов(или «символы»), которые мы называем алфавитом. Для конкретики положим. Строка изКонечная последовательность символов для начала, например,длинаНить. мы используемУказывает длину строки. Набор всех строк конечной длины представлен как . Язык описания функции, будеткаждый членсопоставить со строкой.называется "описание", длина которого определяетсяВыражать.
Мы потребуем, чтобы язык описания был беспрефиксным, т. е. для каждого отдельного, , нетпрефикс. То есть мы не допускаем никаких стрококазывается любой более длинной строкойпервоесимвол. Коллекция строк без префикса имеет следующие комбинированные свойства:
Лемма 7.6 (неравенство Крафта), еслипредставляет собой набор строк без префикса, то
доказывать ОпределениеРаспределение вероятностей участников выглядит следующим образом: при неоднократном подбрасывании непредвзятой монеты решка помечается каки, пока результирующая последовательность не будетчлен; в этот момент остановитесь. для каждого, Предполагатьгенерировать строку для процедурыВероятность. Обратите внимание, потому чтоне имеет префикса, поэтому для каждого, если результат подбрасывания монеты следуетпозже, только если результирующая последовательность равнакогда мы остановимся. Следовательно, для каждого, мы получили. Поскольку вероятности в сумме не превышают 1, наше доказательство заканчивается.
Согласно неравенству Крафта предполагается, что классЛюбой язык описания без префикса дает весовую функцию для этого гипотетического классаМы просто установим. Это наблюдение сразу же приводит к следующим выводам:
Теорема 7.7.
Предполагать— гипотетический класс, пустьдаЯзык описания без префиксов для . Затем для каждого объема выборки, каждый доверительный параметр, каждое распределение вероятностей, вероятность больше, чемоВыбор у нас есть,
вдадлина.
доказыватьвыберите, применяя теорему 7.4 в,Уведомление.
Как и в случае теоремы 7.4, этот результат показывает, чтоПарадигма обучения - с учетом обучающего набора, гипотеза поискапредел минимизации ,. В частности, предлагается взвешивать эмпирические риски, чтобы сократить длину описания. Это приводит к парадигме обучения с минимальной длиной описания.
Минимальная длина описания (MDL) Предыдущие знания: класс счетных гипотез Зависит отОписания языков без префиксов на для всех,дапредставление длины Вход: тренировочный набор,Уверенность вывод: |
---|
Пример 7.3
позволятьвсе предсказанные классы, которые могут быть реализованы с использованием некоторого языка программирования, такого как C++. Давайте представим каждую программу (в алфавите) с помощью двоичной строки, полученной при выполнении команды gzip в программе.создать язык описания без префиксов). Потом,это сДлина (в битах) вывода gzip при запуске соответствующей программы C++.
7.3.1 Бритва Оккама
Теорема 7.7.
Это говорит о том, что если две гипотезы имеют одинаковый эмпирический риск, истинный риск, описывающий более короткую гипотезу, может быть ограничен меньшим значением. Следовательно, этот результат можно рассматривать как передачу философского сообщения:
Краткие объяснения (то есть гипотезы меньшей длины) имеют тенденцию быть более эффективными, чем длинные объяснения.
Это хорошо известный принцип, известный как бритва Оккама, названный в честь английского логика XIV века Уильяма Оккама, которому приписывают то, что он первым сформулировал его. Здесь мы предлагаем возможное обоснование этого принципа. Неравенство теоремы 7.7 показывает, что, полагаяЧем сложнее (в смысле более длинного описания), тем большему размеру выборки он должен соответствовать, чтобы гарантировать, что он имеет меньший реальный риск..
С другой стороны, наши утверждения о бритве Оккама кажутся немного ошибочными. В контексте, когда в науке обычно используется бритва Оккама, язык, сложность которого измеряется, является естественным языком, тогда как здесь мы можем рассматривать любой абстрактный язык описания. Предположим, у нас есть два предположенияСравниватьзначительно меньше. Согласно предыдущим результатам, если оба находятся в данном обучающем наборетакая же ошибка наИстинная ошибка может быть намного выше, чемистинная ошибка , поэтому следует предпочестьвместо. Однако мы можем выбрать другой язык описания, например, длинустрока, назначенная, присваивая строку длиной 100000. Внезапно люди предпочитаютвместо. но это то же самоеи, мы поспорили два предложения назаддолжно быть предпочтительным. Где здесь ловушка?
На самом деле между гипотезами нет присущей общности различий. Ключевым аспектом здесь является порядок зависимостей между исходным выбором языка (или гипотезой о предпочтениях) и обучающей выборкой. Как мы знаем из базовой границы Хеффдинга (уравнение (4.2)), если мы делаем какие-либо предположения до того, как увидим данные, то мы гарантированно получим довольно малый член ошибки оценки. Выбор языка описания (или, что то же самое, некоторого взвешивания гипотезы) — это слабая форма гипотезы приверженности. Вместо того, чтобы придерживаться одной гипотезы, мы распространяем нашу приверженность на многих. Наша граница обобщения верна до тех пор, пока она выполняется независимо от обучающих выборок. Точно так же, как выбор отдельных гипотез для оценки выборкой может быть произвольным, выбор языка описания также произволен.
7.4 Другие концепции обучаемости — последовательность
Позволяя требуемому размеру выборки зависеть не только от, но также зависит от генеративного распределения вероятностейБазовые данные (используемые для создания обучающих выборок и определения риска) могут еще больше ослабить концепцию обучаемости. Этот тип гарантии производительности достигается путем изучения последовательного понятия правил.
Определение 7.8 (Непротиворечивость)
Предполагатьэто набор доменов,даНабор распределений вероятностей наявляется гипотетическим классом. если есть функция, то правило обученияиипоследовательно, для каждого, каждый,все, если, то вероятность не менееовыбор, он считает
еслиэто множество всех дистрибутивов,мы говоримзав целом соответствует.
Конечно, понятие согласованности является ослаблением нашего предыдущего понятия неравномерной обучаемости. Очевидно, что если алгоритм изучает класс неравномерно, что также в целом соответствует этому классу. Релаксация является строгой, потому что существуют последовательные правила обучения, которые не успешны для неконформных учащихся. Например, алгоритм Память, определенный в Примере 7.4 позже.согласуется для всех классов бинарного классификатора на . Однако, как мы обсуждали ранее, этот класс не является неравномерно обучаемым.
Пример 7.4
Рассмотрим память алгоритма прогнозирования классификации, определенную следующим образом. Алгоритм хранит обучающие примеры, и в заданной контрольной точкеВ случае предсказания всех меток, присутствующих в обучающей выборкеМетка большинства в экземпляре (если отсутствует в обучающем наборенапример, предсказать некоторые фиксированные метки по умолчанию). Можно показать (см. упражнение 6), что для любого счетного поляи ограниченный набор этикеток(Говоря о потере «ноль-один»), алгоритм памяти в целом непротиворечив.
Интуитивно не очевидно, следует ли считать алгоритм памяти обучаемым, потому что ему не хватает аспекта обобщения, то есть использования наблюдаемых данных для предсказания меток для невидимых примеров. Тот факт, что память является непротиворечивым алгоритмом для всех классов функций в любом наборе счетных полей, ставит под вопрос полезность гарантий непротиворечивости. Кроме того, внимательные читатели могут заметить, что мы«Плохие ученики», которые приводят к переобучению, представленные в главе, на самом деле являются алгоритмами памяти. В следующем разделе мы обсудим значение различных концепций обучаемости и вернемся к теореме о бесплатном обеде с точки зрения различных определений обучаемости.
1. В литературе непротиворечивость часто определяется с использованием понятия вероятностной сходимости (соответствующей слабой непротиворечивости) или почти достоверной сходимости (соответствующей сильной непротиворечивости).
2. В общем случае мы предполагаем, что Z задано некоторое подмножество сигма-алгебры Ω, и под «всеми распределениями» мы понимаем все распределения, для которых Ω включено в связанное с ними семейство измеримых подмножеств.
7.5 Обсудите различные концепции обучаемости
Мы дали три определения обучаемости и теперь обсудим их полезность. Часто полезность математического определения зависит от того, для чего оно нам нужно. Поэтому мы перечисляем несколько возможных целей, которых можно достичь, определяя обучаемость, и обсуждаем полезность различных определений в свете этих целей.
Каковы риски усвоенных предположений?
Первая возможная цель получения гарантий производительности для алгоритмов обучения — ограничить риск вывода предикторов. Здесь как обучение PAC, так и неоднородное обучение дают нам верхнюю границу истинного риска эмпирического предположения об обучении, основанном на риске. Гарантии непротиворечивости не дают таких ограничений. Однако набор проверки (как описано в главе 11) всегда можно использовать для оценки риска вывода предиктора.
Сколько примеров нужно для сравнения стак же хорошо, как лучшая гипотеза в ?
При решении задачи обучения возникает естественный вопрос: сколько примеров нам нужно собрать, чтобы изучить ее. Здесь PAC Learning дает четкий ответ. Однако для неравномерного обучения и согласованности мы не знаем обучения заранее.Сколько примеров нужно. При неравномерном обучении это число зависит отЛучшее предположение в последовательности, это также зависит от базового дистрибутива. В этом смысле PAC-обучение — единственное полезное определение обучаемости. С другой стороны, мы должны иметь в виду, что даже если ошибка оценки нашего изученного предиктора мала, еслиПри больших ошибках аппроксимации риск также может быть большим. Поэтому даже гарантия PAC не дает нам четкого ответа на вопрос, «сколько примеров нужно, чтобы быть таким же хорошим, как оптимальное значение предсказания Байеса». Это отражает тот факт, что полезность обучения PAC зависит от качества наших предварительных знаний.
Гарантии PAC также могут помочь нам понять, что мы должны делать дальше, если наш алгоритм обучения возвращает очень рискованную гипотезу, потому что мы можем ограничить часть ошибки, вызванной ошибкой оценки, и, таким образом, узнать, какая часть ошибки связана с ошибкой аппроксимации. . Если ошибка аппроксимации велика, мы знаем, что следует использовать другой класс гипотез. Точно так же, если неоднородный алгоритм терпит неудачу, мы можем рассмотреть различные весовые функции (подмножества) предположений. Однако, когда алгоритм консенсуса терпит неудачу, мы не знаем, происходит ли это из-за ошибки оценки или ошибки аппроксимации. Кроме того, даже если мы определим, что существует проблема с членом ошибки оценки, мы не знаем, сколько еще примеров необходимо, чтобы сделать ошибку оценки малой.
Как научиться? Как выразить предварительные знания?
Возможно, наиболее полезным аспектом теории обучения является ответ на вопрос «как учиться». Определение PAC-обучения создает ограничения обучения (через теорему о небесплатном обеде) и необходимость в предварительных знаниях. Это дает нам четкий способ кодирования предшествующих знаний путем выбора класса гипотез, и как только этот выбор сделан, у нас есть общее правило обучения — ERM. Определение неравномерной обучаемости также позволяет определитьЧеткий способ кодирования предшествующих знаний с помощью весов гипотез (подмножеств). Как только этот выбор сделан, у нас снова есть общее правило обучения — SRM. Правила SRM также имеют преимущества в задачах выбора модели, поскольку априорные знания являются частичными. Мы подробно остановились на выборе модели в главе 11, а здесь мы приводим простой пример.
Рассмотрим задачу подбора одномерного многочлена к данным, то есть наша цель — изучить функцию, априори рассмотрим гипотетический класс полиномов. Однако мы можем быть не в состоянии определить, какая степень d даст наилучшие результаты для нашего набора данных:может плохо соответствовать данным (т. е. иметь большие ошибки аппроксимации), в то время как высокая степеньМожет привести к переоснащению (т.е. будет иметь большую ошибку оценки). Далее мы описываем,иРезультат подгонки полинома степени к тому же обучающему набору.
Легко видеть, что эмпирический риск уменьшается с увеличением степени. Следовательно, если мы выберемэто всекласс полиномов степени, то правило ERM для этого класса будет выводитьполиномом степени и будет соответствовать. С другой стороны, если мы выберем гипотетический класс, который слишком мал, например, дополинома степени, ERM будет страдать от недообучения (т. е. больших ошибок аппроксимации). Напротив, мы можем использовать правило SRM для всех наборов многочленов, в то время какПорядок подмножеств ранжирует его, что дает кубический полином, поскольку комбинация его эмпирического риска и границы его ошибки оценки является наименьшей. Другими словами, правила SRM позволяют нам выбрать правильную модель на основе самих данных. Цена, которую мы платим за эту гибкость (помимо небольшого увеличения ошибки оценки оптимальности по сравнению с обучением PAC), заключается в том, что мы не знаем заранее, сколько примеров необходимо для соответствияКонкурс на лучшую гипотезу в .
В отличие от концепций обучаемости PAC и неравномерной обучаемости, определение согласованности не дает естественной парадигмы обучения или способа кодирования предшествующих знаний. Фактически, во многих случаях никаких предварительных знаний не требуется вообще. Например, мы видим, что даже алгоритмы запоминания (которые интуитивно не следует называть алгоритмами обучения) являются непротиворечивыми алгоритмами для любого класса, определенного над счетным полем и конечным набором меток. Это означает, что согласованность является очень слабым требованием.
Какой алгоритм обучения выбрать?
Кто-то может возразить, что хотя согласованность является более слабым требованием, алгоритмы обученияприбытьВсе наборы функций для также согласованы, что дает нам гарантию, что для достаточного количества обучающих примеров мы всегда будем такими же хорошими, как байесовский оптимальный предиктор. Следовательно, если у нас есть два алгоритма, один из которых непротиворечивый, а другой непротиворечивый, мы должны выбрать непротиворечивый алгоритм. Однако этот аргумент проблематичен по двум причинам. Во-первых, для большинства «естественных» распределений мы можем наблюдать на практике, что сложность выборки алгоритмов консенсуса настолько велика, что в каждом практическом случае мы не можем получить достаточно выборок, чтобы воспользоваться этой гарантией. Во-вторых, для любого изЛюбому PAC или непоследовательному ученику нетрудно прийти к классу функций Y. В частности, рассмотрим счетные поля, ограниченный набор метоки гипотетический класс,отприбытьФункция. Мы можем использовать следующий простой трюк, чтобы сделатьлюбого неоднородного ученика сприбытьКлассы всех классификаторов согласованы: получив обучающую выборку, мы сначала запустим на обучающей выборке неоднородный обучающий элемент, а затем получим оценку истинного риска обучения предиктора. Если эта граница достаточно мала, мы закончили. В противном случае возвращаемся к алгоритму памяти. Эта простая модификация делает алгоритмприбытьодинаковы во всех функциях. Поскольку любой алгоритм легко согласуется, может быть неразумно выбирать один алгоритм вместо другого только из соображений согласованности.
7.5.1 Пересмотр принципа «Нет бесплатного обеда»
Напомним, что теорема об отсутствии бесплатного обеда (теорема 5.1 в главе 5) означает, что ни один алгоритм не может изучить все классы классификаторов над бесконечным полем. Напротив, в этой главе мы видели, что алгоритмы памяти согласуются со всеми классами классификаторов над счетно бесконечными полями. Чтобы понять, почему эти два утверждения не противоречат друг другу, давайте сначала рассмотрим формальное утверждение «теоремы об отсутствии бесплатных обедов».
Предполагатьсчетно бесконечное поле,. Теорема об отсутствии бесплатных обедов означает: для любого алгоритмаи размер тренировочного набора,существуетраспределения и функции на, если вы получитеПримеры обучающих примеров с помеченными IID,ПотомМожет вернуть классификатор с большей ошибкой.
Непротиворечивость памяти означает: длякаждое распределение и функция маркировки на, есть размеробучающая выборка (в зависимости от распределения и), так что если Память получит хотя быНапример, он, скорее всего, вернет классификатор с небольшой ошибкой.
Мы видим, что в теореме об отсутствии бесплатных обедов мы сначала определяем размер обучающей выборки, а затем находим функцию распределения и метки, неблагоприятную для этого размера обучающей выборки. Напротив, в гарантии непротиворечивости мы сначала определяем функцию распределения и маркировки, и только затем находим размер обучающей выборки, который достаточно велик, чтобы изучить эту конкретную функцию распределения и маркировки.
7.6 Резюме
Мы вводим неравномерную обучаемость в ослабление обучаемости PAC и согласованность в ослабление неравномерной обучаемости. Это означает, что даже классы бесконечномерных VC могут быть изучены в несколько более слабом смысле обучаемости. Мы обсудим полезность различных определений обучаемости.
Для класса счетных гипотез можно применить схему минимальной длины описания, где предпочтение отдается гипотезам с более короткими описаниями по принципу бритвы Оккама. Интересным примером является гипотетический класс всех предикторов, которые мы можем реализовать на C++ (или любом другом языке программирования), которые мы можем изучить (неоднородно), используя схему MDL.
Все предикторы, которые мы можем реализовать на C++, представляют собой один мощный класс и, вероятно, содержат все, что мы хотим изучить на практике. Возможность пройти курс впечатляет, и кажется, что эта глава должна быть последней в книге. Это не так из-за вычислительного аспекта обучения: времени выполнения, необходимого для применения изученных правил. Например, чтобы реализовать парадигму MDL для всех программ на C++, нам нужно выполнить полный поиск по всем программам на C++, который будет продолжаться вечно. даже во всехПри реализации всех программ на C++ с длиной описания 2 бита парадигма ERM требуетисчерпывающий поиск гипотез. В то время как примерная сложность изучения класса составляет всего, но время выполненияЭто огромное число — намного больше, чем количество атомов в видимой Вселенной. В следующей главе мы формально определим вычислительную сложность обучения. Во второй части этой книги мы рассмотрим гипотетические классы, которые могут эффективно реализовать схему ERM или SRM.
7.7 Библиографические примечания
Наше определение неравномерной обучаемости связано с определением алгоритма OCCAM в Blumer, Ehrenfeucht, Haussler & Warmuth (1987). Концепция SRM возникла из (Вапник, Червоненкис, 1974, Вапник, 1995). Концепция MDL возникла благодаря (Rissanen 1978, Rissanen 1983). Вапник (1995) обсуждает взаимосвязь между SRM и MDL. Эти понятия также тесно связаны с понятием регуляризации (например, Тихонов (1943)).
Мы подробно рассмотрим регуляризацию во второй части книги. Концепция согласованности оценок восходит к Фишеру (1922). Наше введение в непротиворечивость следует за Steinwart & Christmann (2008), которые также вывели несколько теорем о том, что бесплатный обед невозможен.
7.8 Упражнения
- доказать, что для любого конечного классаи любой язык описания, Размерность VC не более– Максимальная длина описания предиктора в единицах. Кроме того, еслиявляется описанием без префикса, то.
- Предполагать— бесконечно счетный гипотетический класс для бинарной классификации. показать, что невозможно— бесконечно счетный гипотетический класс для бинарной классификации. показать, что это невозможноГипотезы присваивают веса, а гипотезы присваивают веса, таким образом
- Используйте эти веса, чтобы учиться неравномерно. То есть весовая функциядолжны быть соблюдены условия.
- Веса будут монотонно инвариантны. То есть, если,Так
-
- Рассмотрим гипотетический класс, где каждый,ограничено. Найдите весовую функциютакПоэтому для всех,Зависит отиКонечно.
- (*) определить такую функцию, когда всесчетно (возможно, бесконечно).
- Предполагатьдля гипотетического класса. для любого, согласно фиксированному языку описания, установитьвыражатьдлина описания. Рассмотрим парадигму обучения MDL, в которой алгоритм возвращает:
вразмеробразец. для любого,Предполагатьи определить
доказыватьA граница B, параметр доверияи тренировочный наборразмер.
- Примечание. Эта граница известна в литературе как неравенство оракула: мы хотим оценить нашу связь с эталонным классификатором (или «оракулом»).как хорошо по сравнению с
- В этой задаче мы хотим показать результат небесплатного обеда для неравномерной обучаемости: т. Е. В любом бесконечном поле класс всех функций не поддается обучению даже при ослабленных неоднородных вариантах обучения.
Напомним, что если существует функция, то алгоритмИзучение классов гипотез неравномерно, для каждогои для всех, если, то для каждого распределения, с вероятностью не менееовыбор, он считает
Если такой алгоритм существует, то говорятявляется неравномерно обучаемым.
- позволятьстатькласс неоднородных учащихся. для каждогоопределение. доказать каждый классВсе размеры VC ограничены.
- доказать, что если класснеравномерно обучаема, то существует класс, так что, для всех, VCdimограничено.
- Предполагать— класс, разбивающий бесконечные множества. Затем для каждой последовательности классовсделать, есть некоторыеДля VCdim.
Подсказка: задан класс, он разбивает некоторые бесконечные множества, и серия занятий, каждый с конечной размерностью VC, из определяющих подмножествначать, для всех,, для любого,, Теперь для каждого такоговыбрать функциютогда нетс доменомВверхПоследовательный. Наконец, определитепутем объединения этихи доказать.
4. Построить интервал из единицыприбытькласс функций, который является неоднородным обучаемым, но не обучаемым PAC.
5. Построить подчиненный интервалприбытьфункция класса, он не является неравномерно обучаемым.
6. В этой задаче мы хотим показать, что алгоритм Память является последовательным обучаемым для каждого класса (бинарных) функций над любым счетным полем. Предполагатьсчетное поле,зараспределение вероятностей на .
- Предполагатьдаперечисление элементов, поэтому для всех,. доказывать
- дать любойдоказать существование,тем самым
- доказательство для всех,еслидля всехда, то для всех,
- сделать вывод, что еслисчетно, то дляКаждое распределение вероятностей на, есть функциязатем для каждогоесли,
- Показано, что Память является последовательным обучаемым для каждого класса (бинарных) функций над любым счетным полем.