3 Сложность Радемахера и размерность VC
Набор предположений, обычно используемых в машинном обучении, бесконечен. Однако оценки сложности выборки из предыдущей главы неинформативны при работе с бесконечными наборами гипотез. Можно спросить, когда гипотетический наборМожно ли эффективно учиться на конечных выборках, когда бесконечность. Наш анализ семейства выровненных по оси прямоугольников (пример 2.4) показывает, что это действительно возможно, по крайней мере, в некоторых случаях, потому что мы показываем, что бесконечные классы понятий сжимаемы. Наша цель в этой главе — обобщить этот результат и вывести общие гарантии обучения для бесконечных наборов гипотез.
Общая идея сделать это состоит в том, чтобы свести бесконечный случай к анализу конечного набора предположений, а затем выполнить шаги из предыдущей главы. Существуют разные методы такого упрощения, каждый из которых опирается на свой набор предполагаемых понятий сложности. Первое понятие сложности, которое мы будем использовать, этоСложность Радемахера. Это поможет нам получить гарантии обучения, используя относительно простые доказательства, основанные на неравенствах МакДиармида, и получить высококачественные оценки, включая оценки, зависящие от данных, которые мы будем часто использовать в следующих главах. Однако для некоторых наборов гипотез оценка с доказанной сложностью Радемахера оказывается NP-трудной. Поэтому введем два других чисто композиционных понятия,функция ростаиизмерение ВК. Сначала мы связываем сложность Радемахера с функцией роста, а затем ограничиваем функцию роста в соответствии с размерностью VC. Параметр VC обычно легче связать или оценить. Мы рассмотрим серию примеров, показывающих, как ее вычислить или связать, а затем свяжем функцию роста с измерением VC. Это приведет к границам обобщения, основанным на размерности VC. Наконец, мы даем нижние границы на основе измерения VC при двух разных настройках:достижимые настройки, где по крайней мере одна гипотеза в рассматриваемом наборе гипотез достигает нулевой ожидаемой ошибки, инедостижимые настройки, где ни одна гипотеза в наборе гипотез не достигает нулевой ожидаемой ошибки.
3.1 Сложность Радемахера
мы будем продолжать использоватьдля представления гипотезы, установленной в предыдущей главе. Многие результаты в этом разделе носят общий характер и применимы к произвольным функциям потерь.. ниже,обычно интерпретируется какприбытьизСопоставьте соответствующее семейство функций потерь:
Однако определение находится в семействе функцийиз любого входного пространствасопоставить сдается в общем случае.
Сложность Радемахера отражает богатство семейства функций, измеряя, насколько хорошо набор гипотез соответствует случайному шуму. Формальные определения эмпирической и средней сложности Радемахера приведены ниже.
Определение 3.1: (эмпирическая сложность Радемахера)
Предполагатьэто изсопоставить ссемейство функций,размери элементфиксированный образец в формате . Потом,относительно образцаЭмпирическая сложность Радемахера определяется как:
В формуле,вэто взять. Случайные переменныеназывается переменной Радемахера.
ПредполагатьПредставляет собой вектор значений, которые функция g принимает на выборке S:. Тогда эмпирическая сложность Радемахера может быть переписана как
Внутренний продуктИзмерениесо случайным вектором шумакорреляция. супремумкласс функции мерыв образцена синдикаторы релевантности. Таким образом, эмпирическая сложность Радемахера измеряет в среднем класс функцийиКорреляция случайного шума сверху. Это описывает семьюбогатство: более богатые или более сложные семьиможно сгенерировать больше векторов, что в среднем лучше коррелирует со случайным шумом.
Определение 3.2 (сложность Радемахера)
ПредполагатьПредставляет распределение, из которого была взята выборка. для любого целого числа,Сложность Радемахера основана наРазмер чертежаОжидаемое значение эмпирической сложности Радемахера для всех выборок:
Теперь мы готовы дать нашу первую обобщающую оценку, основанную на сложности Радемахера.
Теорема 3.3
ПредполагатьОтсопоставить ссемейство функций. Тогда для любого, с вероятностью не менеепо размеруобразцы iid, следующее относится ко всем :
Доказательство: для любого образцаи любой,мы используемПредставляет эмпирическое среднее значение мульчи:. Доказательство заключается в применении неравенства МакДиармида к произвольным выборкам.Функция, где функция определяется как:
Предполагатьидве выборки, которые только близки друг к другу, пустьсерединаисередина. Тогда, поскольку разность супремума не превосходит супремума разности, имеем
Так же мы можем получить,следовательно. Тогда согласно неравенству МакДиармида для любого, с вероятностью не менее, имеет место следующая формула:
Затем мы ограничиваем ожидаемое значение с правой стороны до:
Уравнение (3.8) использует тот факт, чтоТочки в отбираются iid, поэтому, как показано в (2.3). Неравенство 3.9 выполняется в силу субаддитивности супремум-функции.
В уравнении (3.11) введем переменную Радемахера, которая является равномерно распределенной независимой случайной величиной, которая принимает значение в {−1, 1}, как показано в определении 3.2. Это не меняет ожидание, фигурирующее в (3.10): когда, соответствующая сумма остается той же, когда, связанная сумма и знак переворота, что эквивалентноиобмен междуи. Поскольку мы знаем все возможныеиСделайте ожидание, чтобы замена не повлияла на общее ожидание; мы просто меняем порядок суммирования внутри ожидания.
Уравнение (3.12) определяется субаддитивностью супремум-функции, т. е. неравенством. Наконец, (3.13) следует из определения сложности Радемахера и переменныхираспределяются таким же образом.
в уравнении (3.13)Сокращение , дает оценку в уравнении (3.3), используязаменять. чтобы вывестиОценивая , заметим, что по определению 3.1 изменениеМаксимум одно очко в изменениииз. Затем, снова используя неравенство МакДиармида, вероятность равнаСледующее:
Наконец, мы используем объединение, связанное для объединения неравенств 3.7 и 3.14 с вероятностью не менее :
Вышеупомянутое соответствует (3.4).
Следующие результаты предполагают, что множествоЭмпирическая сложность Радемахера с бинарной потерей (ноль-единичная потеря) случай сСемейство связанных функций потерьСвязаться.
Лемма 3.4
Предполагатьдля стоимости вСемейство функций в , пусть G будет семейством нулевых функций потерь, связанных с H:. заобразец любого элемента в,Предполагатьуказывает, что этоПроекция на: . Так,иЭмпирическая сложность Радемахера имеет следующую связь:
доказывать:заобразец любого элемента в, по определению,Эмпирическая сложность Радемахера может быть выражена как:
Здесь мы используемфакт, а для фиксированного,иДело в том, что он распространяется таким же образом.
Заметим, что из этой леммы следует, что, взяв математическое ожидание, для любого , . Эти связи между эмпирической сложностью Радемахера и средней сложностью Радемахера можно использовать дляСложность Радемахера для получения границ обобщения для бинарной классификации.
Теорема 3.5 (границы сложности Радемахера — бинарная классификация)
Предполагатьпредставляет собой семейство функций, диапазон значений;Предполагатьместо для вводараздача на. Тогда для любого δ>0 согласносделать образец размером mи его вероятность не менее, то для любогоОба установили:
Доказательство. Результат следует теореме 3.3 и лемме 3.4.
Эта теорема дает две границы обобщения для бинарной классификации, основанной на сложности Радемахера. Обратите внимание, что вторая оценка (3.18) связана с данными: эмпирическая сложность Радемахераэто конкретный образецФункция. Следовательно, если мы можем вычислить, эта оценка может быть особенно полезной. Но как вычислить эмпирическую сложность Радемахера? использовать сноваиРаспределяя таким же образом, мы можем написать
Теперь, дляфиксированное значение , расчетэквивалентноЭмпирическая минимизация рискаПроблема в том, что это трудно вычислить для некоторых наборов гипотез. Поэтому в некоторых случаях вычислениемогут быть вычислительно сложными. В следующем разделе мы свяжем сложность Радемахера с комбинированными показателями, которые легче вычислить и которые имеют независимое применение при анализе обучения во многих условиях.
3.2 Функция роста
Здесь мы покажем, как сложность Радемахера основана нафункция ростаограничить.
Определение 3.6 (Функция роста)
набор гипотезфункция ростаОпределяется следующим образом:
другими словами,использоватьгипотеза вМаксимальное количество различных способов классификации точек. Каждая из этих различных классификаций называется бинарной классификацией, поэтому функция роста подсчитывает количество дихотомий, реализуемых гипотезой. Это обеспечивает набор гипотезЕще одна мера богатства. Однако, в отличие от сложности Радемахера, эта метрика не зависит от распределения, она является чисто комбинаторной.
Чтобы связать сложность Радемахера с функцией роста, воспользуемся леммой Массарта.
Теорема 3.7 (лемма Массара)
Предполагатьявляется конечным множеством, и, то выполняется следующее уравнение:
В формуле— независимая равномерная случайная величина, значение которой равноивекторколичество.
доказывать:из-за случайных величиннезависимы, и каждыйВозьмите значение висередина. Таким образом, результат следует непосредственно из границы максимального ожидания, полученной в следствии D.11.
Используя этот результат, теперь мы можем ограничить сложность Радемахера функцией роста.
Вывод 3.8
Предполагатьпредставляет собой семейство функций ценности, Тогда имеет место следующее:
доказывать:для фиксированных образцов,мы используемнабор векторов, представляющих значения функции,всуществуетсередина. посколькупринять значение, норма этих векторов ограничена. Тогда мы можем применить лемму Массара следующим образом:
По определению,Таким образом, ограниченный функцией роста,
Таков вывод доказательства.
Сочетание оценки обобщения (3.17) теоремы 3.5 со следствием 3.8 в терминах функции роста немедленно дает следующую оценку обобщения.
Вывод 3.9 (Границы обобщения функции роста)
Предполагатьпредставляет собой семейство функций ценности. Тогда для любого, с вероятностью не менее, для любого ,
Рисунок 3.1Размер ВК интервала на сплошной линии. (a) Любые две точки могут быть нарушены. (b) Ни один из образцов трех точек не может быть раздавлен, потому что (+,-,+) не может быть помечено.
Границы функции роста также могут быть получены напрямую (без предварительного использования границ сложности Радемахера). Полученные границы выглядят следующим образом:
Оно отличается от (3.22) только константами.
Вычисление функции роста не всегда может быть удобным, поскольку по определению требует вычисления всехиз. Наборы гипотез представлены в следующем разделе.Другая мера сложности, основанная на одном скаляре, оказывается тесно связанной с поведением функции роста.
3.3 Размер ВК
Здесь мы вводим понятие размерности ВК (размерность Вапника-Червоненкиса). Измерение VC также является чисто комбинаторным понятием, но обычно его легче вычислить, чем функцию роста (или сложность Радемахера). Как мы увидим, параметр VC является ключевой величиной в обучении и напрямую связан с функцией роста.
Чтобы определить набор гипотезИзмерение VC, мы сначала вводим понятие фрагментации. Напомним из предыдущего раздела, предположим, что коллекция,собиратьДихотомия заключается в использованииГипотетические маркеры вОдин из возможных способов указать. когдаПри реализации всех возможных дихотомий S, т.е.час,набор точекгипотетический наборвламываться.
Определение 3.10 (параметр VC)
набор гипотезИзмерение VC доступно поРазмер самого большого набора смэшей:
Заметим, что по определению, если, то есть набор размеров, которые можно раздавить. Однако это не означает, что все размерыили более мелкие коллекции разбиты, на самом деле это обычно не так.
Рисунок 3.2использоватьГиперплоскость в делает нереализуемую дихотомию четырех точек. (a) Все четыре точки лежат на выпуклой оболочке. (b) Три точки расположены на выпуклой оболочке, а остальные точки расположены внутри.
Чтобы дополнительно проиллюстрировать эту концепцию, мы рассмотрим ряд примеров гипотетических множеств и определим размерность VC в каждом случае. Для расчета размерности VC мы обычно отображаем нижнюю границу ее значения, а затем верхнюю границу соответствия. чтобы датьНижняя граница, просто докажите мощностьколлекциявозможноразрушать. Чтобы дать верхнюю оценку, нам нужно доказать, что нет мощностиколлекциявозможноРазрушение, которое обычно сложнее.
Пример 3.11 (интервал на сплошной линии)
Наш первый пример включает гипотетический класс интервалов на реальной прямой. Ясно, что размерность ВК не меньше двух, поскольку все четыре дихотомииВсе могут быть достигнуты, как показано на рисунке 3.1 (а). Наоборот, согласно определению интервала, поскольку невозможно достичьзнак, поэтому набор из трех точек не может быть нарушен. следовательно,.
Пример 3.12 (Гиперплоскость)
учитыватьМножество гиперплоскостей в , мы сначала наблюдаемЛюбые три точки, не лежащие на одной прямой, можно раздавить. Чтобы получить первые три дихотомии, мы выбираем гиперплоскость с двумя точками на одной стороне и третьей точкой на другой. Чтобы получить четвертую дихотомию, мы располагаем все три точки на одной стороне гиперплоскости. Остальные четыре дихотомии достигаются простым переключением знака. Далее мы покажем, что четыре точки нельзя разбить, рассмотрев два случая: (i) четыре точки лежат на выпуклой оболочке, определяемой четырьмя точками, и (ii) три из четырех точек лежат на выпуклой оболочке , остальные точки являются внутренними. В первом случае невозможно добиться положительных меток для одной диагональной пары и отрицательных меток для другой, как показано на рис. 3.2(а). Во втором случае невозможно получить метки с положительными точками на выпуклой оболочке и отрицательными точками внутри, как показано на рис. 3.2(b). следовательно,.
В целом, в, мы начинаем сНачиная с набора d точек вустановить в качестве источника иопределяется как, то есть точка, координаты которой равны 1, а все остальные точки равны 0, что дает нижнюю границу. Предполагатьдалюбой набор этикеток. Предполагатьво-первыхкоординатывектор. Тогда по уравнениюДекомпозиция классификатора, определяемая гиперплоскостью, так как для любого,
Чтобы получить верхнюю границу, просто покажите, что не существует множестваДостаточно того, что точка может быть уничтожена полупространством. Для доказательства воспользуемся следующей общей теоремой.
Теорема 3.13 (теорема Радона)
любой набор точекможно разделить на два подмножестваи, так чтоиВыпуклая оболочка пересекается.
доказывать:Предполагать. Ниже приведенысерединаСистема линейных уравнений:
Поскольку первое уравнение ведет к уравнению, каждая компонента соответствует одному уравнению. Количество неизвестныхбольше, чем количество уравнений, поэтому система допускает ненулевые решения. так как,ивсе непустые множества,исоставляет часть X. Согласно последнему уравнению (3.26),. Предполагать. Тогда из первой части (3.26) следует
использоватьсказал, ивыражать,выражать. Согласно определению выпуклой оболочки (Б.6) это означает, чтооба принадлежатВыпуклая оболочка , также принадлежитвыпуклая оболочка.
Теперь позвольтеэто группаточка. По теореме Радона его можно разделить на два множестваи, так что их выпуклые оболочки пересекаются.
Теперь позвольтеэто группаточка. По теореме Радона его можно разделить на два множестваи, так что их выпуклые оболочки пересекаются. Обратите внимание, что когда два набора точекиКогда они разделены гиперплоскостью, их выпуклые оболочки также разделены этой гиперплоскостью. следовательно,инельзя разделить гиперплоскостью,И не сломается. Комбинируя наши верхние и нижние оценки, мы показываем, что.
Пример 3.14 (прямоугольник, выровненный по оси):
Рассматривая четыре точки ромба, мы сначала доказываем, что размерность ВК не меньше четырех. Тогда становится ясно, что можно реализовать все 16 дихотомий, некоторые из которых показаны на рис. 3.3(а). И наоборот, для любого набора из пяти различных точек, если мы построим наименьший выровненный по оси прямоугольник, содержащий точки, одна из точек окажется внутри этого прямоугольника.
Рисунок 3.3Размеры прямоугольника, выровненного по оси VC. (а) Пример достижимой дихотомии четырех точек в ромбовидном узоре. (b) Пятиточечная выборка не может быть достигнута, если внутренние точки и остальные точки имеют противоположные метки.
Представьте, что мы присваиваем отрицательную метку этой внутренней точке и положительную метку каждой из оставшихся четырех точек, как показано на рисунке 3. 3(б). Прямоугольник без выравнивания оси достигает этой разметки. Следовательно, никакой набор из пяти различных точек не может быть раздавлен и.
Пример 3.15 (выпуклый многоугольник)
В основном мы изучаем классы выпуклых d-углов на плоскости. Чтобы получить нижнюю оценку, докажем, что любой наборТочки можно раздавить. Для этого выбираемТочки, для конкретной метки, если отрицательных меток больше, чем положительных, точки с положительными метками будут использоваться как вершины многоугольника, как показано на рисунке 3.4(a). В противном случае касательная отрицательной точки используется как ребро многоугольника, как показано в (3.4)(b). Чтобы получить верхнюю границу, можно показать, что выбор точек на окружности максимизирует количество возможных дихотомий, поэтому. Также обратите внимание.
Пример 3.16 (синусоидальная функция)
Предыдущий пример показывает, чтоИзмерение VC и определениеКоличество свободных параметров такое же. Например, количество параметров, определяющих гиперплоскость, соответствует ее размерности VC. Однако это не относится к общему случаю. Несколько упражнений в этой главе иллюстрируют этот факт. Яркий пример с этой точки зрения приведен ниже. Рассмотрим следующее семейство синусоидальных функций:. Пример этого функционального класса показан на рис. 3.5. Эти синусоидальные функции можно использовать для классификации точек на сплошной линии:
Рисунок 3.4Выпуклая плоскостьУглы можно сломатьточка. (а) D-образная конструкция, когда отрицательных меток больше. (b) когда передних этикеток большеструктура формы.
Рисунок 3.5функция синуса для классификацииПример.
Используется для классификации точек на сплошной линии: если точка находится над кривой, она помечается как положительная, в противном случае — как отрицательная. Хотя это семейство синусоид определяется параметром ω, можно показать, что(Упражнение 3.20).
Размерность VC многих других гипотетических множеств может быть определена или оценена сверху аналогичным образом (см. упражнение в этой главе). В частности, размерностьлюбого векторного пространстваРазмеры могут отображаться до(Упражнение 3.19). Следующий результат, лемма Атола, проясняет, что концепция функции роста связана ссвязи между измерениями.
Рисунок 3.6В доказательстве леммы ЗауэраиИллюстрация того, как построить.
Теорема 3.17 (лемма Зауэра)
Предполагатьзанабор гипотез. Тогда для всех, имеет место следующее неравенство:
доказывать:Доказательство проводится по индукцииосуществляется выше. Утверждение, очевидно, относится киили. Теперь предположим, что это работает дляи. исправлено сКоллекция дихотомий, и установитепо правуконцепции, вытекающие из ограниченийколлекция.
Теперь рассмотрим上的下列数族。 мы будемопределяется как ограничениерезультирующая концепцияколлекция. Далее, определяя каждое понятие какилиЭто коллекция ненулевых точек, мы можем быть определены как
так как , значит не добавлять,этоконцепция. Кроме того, ограничениязначитдобавить втакже сделать этоКонцепция чего-либо.иСтруктура показана на рисунке 3.6. наблюдатьполучитьиОпределение.
так как, то через определение функции роста, используя предположение индукции,
Кроме того, согласноОпределение того, если множествоодеялоразбить, а потом собратьодеялоразгромить. следовательно,
Согласно определению функции роста и индуктивному предположению,
следовательно,
Это завершает индуктивное доказательство.
Важность леммы Зауэра можно увидеть в следствии 3.18, которое показывает, что функция роста демонстрирует только два типа поведения:, при этих обстоятельствах,или, при этих обстоятельствах.
Следствие 3.18.
Предполагатьзанабор гипотез. тогда для всехСказать,
доказывать:Доказательство начинается с леммы Зауэра. Первое неравенство умножает каждую сумму на единицу изСтартовый коэффициент равен или больше 1, второе неравенство будет неотрицательным и к нему добавляются.
После упрощения выражения с помощью биномиальной теоремы воспользуемся общим неравенствомчтобы получить окончательное неравенство.
Только что установленная явная связь между размерностью VC и функцией роста в сочетании со следствием 3.9 немедленно приводит к следующим обобщающим оценкам, основанным на размерности VC.
Вывод 3.19 (граница обобщения размерности VC)
Предполагатьпредставляет собой семейство функций ценностис размерностью ВК. Тогда для любого, с вероятностью не менее, следующее относится ко всем :
Следовательно, форма этого круга обобщения
Это подчеркивает важность соотношения/данных обобщения. Эта теорема представляет собой еще один пример бритвы Оккама, где простота измеряется меньшими размерами VC.
Границы размерности VC могут быть получены непосредственно без использования промежуточных оценок сложности Радемахера, как в (3.23): Объединение леммы Зауэра с (3.23) дает следующие оценки высокой вероятности
Его общий вид (3.30). Логарифмический множитель играет в этих оценках лишь незначительную роль. Фактически, для устранения этого фактора можно использовать более детальный анализ.
3.4 Нижний мир
В предыдущем разделе мы дали несколько верхних оценок ошибки обобщения. Напротив, в этом разделе дается нижняя граница ошибки обобщения любого алгоритма обучения с точки зрения размерности VC набора используемых предположений.
Эти нижние границы показаны путем обнаружения «плохого» распределения любого алгоритма. Поскольку алгоритм обучения произвольный, указать конкретное распределение затруднительно. Скорее достаточно неконструктивно доказать его существование. На высоком уровне метод доказательства, используемый для достижения этого, представляет собой метод теории вероятностей Пола Эльдо. В приведенном ниже доказательстве сначала дается нижняя граница ожидаемой ошибки параметров, определяющих распределение. Отсюда следует, что нижняя граница применяется по крайней мере к одному набору параметров, то есть к распределению.
Теорема 3.20 (нижняя оценка, случай достижимости)
Предполагатьразмер vcнабор гипотез. Тогда для любогои любой алгоритм обучения, есть раздачаразделить наи целевая функциятак что
доказывать:ПредполагатьэтоРазбитая коллекция. для любого,Мы выбираем, сократив свою поддержку до, так точкас очень большой вероятностью, остальная вероятностная масса равномерно распределена по остальным точкам:
С этим определением большинство образцов содержат,так какбыть раздавленным, когда определитсяКогда на таблице нет меток, попадающих в обучающую выборку,В общем, не лучше, чем подбросить монетку.
мы предполагаем, чтосуществуетВ приведенном выше нет ошибки, но без потери общности. для образца, мы позволяемозначает, что его элементы находятся внабор в , пустьразмеробразецсборник, такой. Теперь исправьте образец, и учитывать все меткиравномерное распределение по, так как набор уничтожен, все метки находятся всередина. Тогда имеет место следующая нижняя оценка:
Первая нижняя оценка верна, потому что, когда мы рассматриваем тольковместовсе в, мы удаляем неотрицательный член из суммы. После перестановки членов следующее уравнение остается верным, потому что мы имеемпринять ожидаемое значение, каждыйиравные веса наразгромить. так какиОпределение , окончательная нижняя оценка верна, последняя означает, что.
Так как (3.33) применимо ко всем, так что это также относится ко всем:. Согласно теореме Фубини математическое ожидание можно переставить, поэтому
это означаетхотя бы для одного тега. Разбейте это ожидание на две части и используйте,у нас есть:
Совокупные элементы в доходе
Поэтому все образцы(не обязательно вВероятность на ) может быть нижней границей следующим образом:
что приводит нас книжняя граница. Согласно мультипликативной границе Чернова (теорема D.4), для любого, больше, чемуказать на размерОбразец построен в:
Следовательно, дляи,
заполучитьи.
Теорема утверждает, что для любого алгоритма, оба существуют«Плохое» распределение и целевая функция на, который определяетсяВозвращенная предполагаемая ошибка представляет собой константу, умноженную на, с некоторой постоянной вероятностью. Это еще раз демонстрирует ключевую роль, которую играет фактор ВК в обучении. Результаты показывают, что когда размерность VC бесконечна, обучение PAC невозможно при достижимых условиях.
Заметим, что доказательство показывает более сильный результат, чем утверждение теоремы: распределениеВыбор не зависит от алгоритма. Теперь у нас есть теорема, которая дает нижнюю оценку для нереализуемого случая. Для его доказательства необходимы следующие две леммы.
Лемма 3.21
Предполагатьявляется равномерно распределенной случайной величиной, принимающейзначение в , гдеи,Предполагатьзавыборка случайных величин,Выбиратьзначение в , и согласноРаспределение определениянезависимыми и равномерно распределенными. ПредполагатьОтприбытьфункции справедлива следующая формула:
возначает всеи.
доказывать:Эту лемму можно использовать с двумя уравнениями сиОбъясняется эксперимент с предвзятой монетой. Это означает, что на основеилипробы, взятые издискриминантное правило, чтобы определить, какая монета была подброшена, размер выборкидолжен быть не менее. Это доказательство остается в качестве упражнения (упражнение D.3). Воспользуемся тем, что для любого фиксированного, функциявыпукла, что нетрудно установить.
Лемма 3.22
Предполагатьбратьзначение случайной величины. Тогда для любого ,
доказывать:так какВозьмите значение всередина,
Таков вывод доказательств.
Теорема 3.23 (нижняя оценка, неизменяемый случай)
Предполагатьзаизмерениенабор гипотез. Тогда для любогои произвольные алгоритмы обучения, есть раздачаразделить на,тем самым:
Аналогично, для любого алгоритма обучения проверка сложности выборки
доказывать:Предполагатьдля группыизмельченные частицы. для любогои любой вектор, мы определяем распределение, его поддержкаследующее:
Поэтому каждая точкаЭтикетки следуют за распределением необъективных монет., где отклонение определяется выражениемсимволы иразмер определяет. Для определения каждой точкинаиболее вероятная метка , поэтому алгоритму обучения необходимо сравнитьОценки с более высокой точностью. Для дальнейшего увеличения сложности будут выбраны в соответствии с алгоритмоми, как показано в лемме 3.21,каждая точка обучающей выборкипример.
Очевидно, для всех, байесовский классификаторЗависит отопределение. так какразбился, значитсуществуетсередина. для всех ,
позволятьАлгоритмы обучения представлениюпри получениинарисованный образец маркераПредположения вернулись позже. мы будем использоватьПредставительствосуществуетявления в . Предполагатьвыражатьравномерное распределение на. Тогда, учитывая, что, имеет место следующее представление:
так какОжидаемое значение нанижняя граница , поэтому должно быть некоторое
Тогда по лемме 3.22 для, для любого,
в. выберитеи, так чтои
Чтобы соответствовать определениюиНеравенство , пусть. потом
выберитедаети условия
позволятьУказывает на правую сторону. Мы ищем формудостаточное условие. отначать, обеспечить, применяяБудет достаточно. Это условие дает
следовательно,достаточно для обеспечения неравенства. Теорема утверждает, что для любого алгоритма, в случае невозможностиСуществует «плохое» распределение на , такое чтоВозвращенная предполагаемая ошибка представляет собой константу, умноженную на, с некоторой постоянной вероятностью. В этом общем случае измерение VCD также является ключевой величиной в обучении. В частности, независимое обучение PAC невозможно при бесконечных размерностях VC.
3.5 Примечания к главе 3.5
Колчинский [2001], Колчинский и Панченко [2000] и Бартлетт, Бушерон и Лугоши [2002a] впервые выступили за использование сложности Радемахера для получения границ обобщения в обучении, см. также [Колчинский и Панченко, 2002, Бартлетт и Мендельсон, 2002]. ]. Бартлетт, Буске и Мендельсон [2002b] ввели понятие локальной сложности Радемахера, то есть сложность Радемахера ограничена подмножеством множества гипотез, ограниченным границей дисперсии. Это можно использовать для получения лучших гарантий при определенных предположениях о регулярности шума.
Теорема 3.7 должна быть представлена Массату [2000]. Вапник и Червоненкис [1971] ввели понятие размерности ВК и подробно его изучили [Вапник, 2006, Вапник и Червоненкис, 1974, Blumer et al., 1989, Assouad, 1983, Dudley, 1999]. Помимо ключевой роли в машинном обучении, измерение VC широко используется в других областях информатики и математики (см., например, Shelah [1972], Chazelle [2000]). Теорема 3.17 представляет собой лемму Ас-Зауэра, известную в учебном сообществе, но ее результаты были впервые даны Вапником и Червоненкисом [1971] (в немного отличающихся версиях), а затем независимо Зауэром [1972] и Шелахом [1972].
&emps; Когда это достижимо, Вапник и Червоненкис [1974] и Хаусслер и др. [1988] дают нижние границы ожидаемой ошибки в терминах VCD. Затем дается нижняя граница вероятности ошибки, как указано в теореме 3.20 Блумера и др. [1989]. Теорема 3.20 и ее доказательство, улучшающее предыдущие результаты, принадлежат Ehrenfeucht, Haussler, Kearns, and Valiant [1988]. Devroye and Lugosi [1995] дали более точные оценки для той же задачи с более сложными выражениями. Теорема 3.23 дает нижнюю оценку в нереализуемом случае, а данное доказательство принадлежит Энтони и Бартлетту [1999]. См. ссылку Алона и Спенсера [1992] для других примеров применения вероятностных методов, демонстрирующих их полные возможности.
&emps; Есть несколько других мер сложности ряда функций, используемых в машинном обучении, включая числа покрытия, числа переноса и некоторые другие меры сложности, обсуждаемые в главе 11. Каждая мера сложности естественным образом сводит бесконечный набор гипотез к конечному набору гипотез, что приводит к границе обобщения для бесконечного набора гипотез. Упражнение 3.31 иллюстрирует использование покрывающих чисел для получения границ обобщения с помощью очень простого доказательства. Между этими мерами сложности также существует тесная связь: например, согласно теореме Дадли, эмпирическая сложность Радмахера может быть рассчитана какЧтобы определить [Dudley, 1967, 1987], числа покрытия и упаковки могут быть определены размерностью VC [Haussler, 1995]. См. также [Ledoux and Talagrand, 1991, Alon et al., 1997, Anthony and Bartlett, 1999, Cucker and Smale, 2001, Vidyasagar, 1997] для получения информации о показателях покрытия для некоторых других мер границы сложности.
3.6 Упражнения
1,Функция роста в среднем интервале. ПредполагатьзаКоллекция промежуточных интервалов.Размерность VC равна 2. Рассчитайте коэффициент дробления. Сравните результаты с общими оценками функции роста.
2,Функция роста и сложность Радемахера для средних порогов. Предполагатьпредставляет собой семейство пороговых функций на вещественной прямой:. дать функцию роставерхняя граница. использовать его для полученияверхняя граница.
3. Функция роста линейной комбинации.Коллекция средних векторовЛинейно отделимый маркерРазделены на два набораииидля определенного.
Предполагатьдаподмножество .
- (а) ПустьдаДихотомия , пусть. доказыватьилинейно отделима над гиперплоскостью, проходящей через начало координат тогда и только тогда, когдапроисходит через происхождение иГиперплоскости линейно отделимы.
- (б) установитьдаподмножество такое, чтолюбойПодмножество элементов слинейно независим. Затем было доказаноКоличество линейно отделимых маркеров равно. (Подсказка: докажите по индукции )
- (с) установитьдаручкасопоставить сФункция. определениедля семейства классификаторов, основанных на линейных комбинациях этих функций:
пройти черезопределение. предположим, что существует, так чтокаждогоВсе подмножества линейно независимы. Затем получите
4. Нижняя граница функции роста. Докажите, что лемма Зауэра (теорема 3.17) является строгой. Докажите существование размерности vcгипотетический класс,сделать.
5. Улучшенная верхняя граница Радмахера. Доказательство может быть дано формулой ES[Π(G, S)]Более тонкая верхняя граница сложности семейства Радемахера, где Π(G, S) — количество способов пометить точки в выборке S.
6. Класс одноэлементных гипотез. Рассмотрим тривиальные наборы гипотез.
- а) Докажите, что любойимеют.
- (b) Используйте аналогичную структуру для доказательства строгости леммы Массара (теорема 3.7).
7. Класс двухфункциональных гипотез. Предполагатьпредставляет собой набор гипотез, который сводится к двум функциям: , является выборкой размера m.
- (а) Предположение— постоянная функция со значением −1,является постоянной функцией со значением +1. Что такое vc размерность d?Верхняя граница эмпирической сложности Радемахера RS(H) (подсказка: выразить RS(H) через абсолютное значение суммы переменных Радемахера и применить неравенство Йенсена), и использоватьСравните верхнюю границу.
- (б) Предположенияявляется постоянной функцией со значением -1, иэто функция, которая принимает значение -1, за исключением точки x1, которая принимает значение +1. Какова размерность d функции vc?Рассчитайте эмпирическую сложность Радемахера RS(H).
8. Тождество Радемахера. ремонт. Функция доказательства начинается ссопоставить слюбой изи любые два набора гипотезиСледующие тождества для :
- (a) .
- (b) .
- (c)
9. Сложность пересечения понятий Радемахера. Предполагатьибудетсопоставить сдва набора функций, пусть. Докажите, что для любого размераобразец , Эмпирическая сложность Радемахера может иметь следующие границы:
Совет: используйте функцию Липшицаи лемма Талагранда о стягивании.
используйте это, чтобы ограничитьииипересечениеРадемахеровская сложность семейства,в соответствии сиСложность Радемахера.
10. Вектор предсказания сложности Радемахера. Предполагатьразмеробразец, зафиксированный как.
- (а) свыражатьправильновектор предсказания. даватьЭмпирическая сложность Радемахераверхнюю границу , используяПредставление (подсказка: используйте ожидаемое представление абсолютного значенияи применяя неравенство Дженсена). Предположениедля всех. с разреженной меройПредставляет границу сложности Радемахера. Какова верхняя граница экстремального значения меры разреженности?
- (б) установитьбудетсопоставить ссемейство функций. использоватьидаватьиВерхняя граница эмпирической сложности Радемахера.
11. Радемахеровская сложность регуляризованных нейронных сетей. Пусть входное пространство будет. В этой задаче мы рассматриваем отображениеприбытьСемейство регуляризованных нейронных сетей, определяемое набором функций:
вявляется L-липшицевой функцией. Например,Может быть сигмовидной функцией, т. е. 1-липшицевой.
- (доказательство.
- (b) Используйте лемму Талагранда для всех наборов гипотез.и l-липшицевая функцияэффективный:
до верхней границы, в соответствии с эмпирической сложностью Радемахера H', где H' определяется как
- (c) Используйте неравенство Коши-Шварца, чтобы доказать
- (г) Используя неравенство, верхняя граница которого поддерживается неравенством Дженсена.
*(e) Предполагая, что для всех , для определенного. Используя предыдущий вопрос, используйтевывестиВерхняя граница сложности Радемахера.
12. Сложность везде. Профессор Джесету утверждает, что согласно его размерности vc, обнаружил какое-либо предположение, что функция setHof находится вЛучшая оценка сложности Радемахера при взятии значения. Его царствоформа. Можете ли вы доказать, что профессор Джесту не прав? (Подсказка: рассмотрим предположение, что sethreed — это всего лишь две простые функции.)
13. Размерность vc объединения k интервалов. Какова размерность vc сплошного подмножества, состоящего из объединения k интервалов?
14. Размерность vc конечного множества гипотез. Максимальное значение размерности vc для доказательства конечной гипотезы равно.
15. Подмножество измерения vc. по одному параметруПодмножество параметризованных сплошных линийкакой размер vc
16. Размер оси квадрата и треугольника vc.
- а) Каков размер vc осевого квадрата на плоскости?
- б) Рассмотрим на плоскости прямоугольные треугольники, стороны которых параллельны осям координат с прямым углом, а прямой угол находится в левом нижнем углу. Каков размер риска этой семьи?
17.Размер vc замкнутой сферы. доказыватьРазмерность vc всех наборов замкнутых сфер в ,
18. Размерность vc эллипсоида.Какова размерность vc множества всех эллипсоидов в ?
19. Размерность vc векторного пространства действительных функций. даконечномерное векторное пространство действительных функций,. ПредполагатьДля набора гипотез:
20. Размерность vc функции синуса. Рассмотрим семейство гипотез для функции синуса (пример 3.16):
- а) Докажите, что для любоготочкаНе может быть разложен семейством синусоидальных функций.
- (b) Докажите, что размерность vc семейства синусоидальных функций бесконечна. (Подсказка: докажите, что {2−i:i≤m} можно раздавить любым m>0)
21. Размерность vc объединения полупространств. данныйВерхняя граница vc-размерности класса гипотез, описываемых объединением полупространств.
22. Размерность vc пересечения полупространств. учитыватьВыпуклая полупространствасвоего рода. даетВерхние и нижние оценки .
23. Размерность vc концепции пересечения.
- (а) Пустьидва концептуальных класса. для любого концептуального класса,
- (б) установитьявляется классом понятий размерности vc d, множествоВсе понятия для s от, класс понятий, образованный пересечением s≥1. доказалРазмерность vc. (Подсказка: для любого )
24. Понятие объединения размерности vc. Пусть A и B — два набора функций, отображающих X в {0,1}, и предположим, что A и B имеют конечную размерность VC, VCdim(A) = dA, VCdim(B) = dB. Пусть C=A∪B — объединение A и B.
- (a) Покажите, что для всех m.
- (b) Используя лемму Зауэра, доказывается, что когдачас,, и даетГраница размерности vc.
25. Размерность vc концептуального симметричного различия. для обоих наборови,ПредполагатьвыражатьиРазность симметрии , т.е.. Предполагатьимеет конечную размерность vcНепустое семейство подмножеств. ПредполагатьдаЭлемент , определяет. показывать,
26. Симметричные функции. функция:является симметричным, если его значение однозначно определяется количеством единиц во входных данных. Предполагатьпредставляет собой набор всех симметричных функций.
- (а) определитьРазмерность vc .
- (б) даетВерхняя и нижняя границы сложности выборки произвольного последовательного алгоритма обучения PAC.
- (c) Обратите внимание, что любые предположенияможно использовать векторсказал, из которыхимеетв примереценность. Дизайн на этой основепоследовательный алгоритм обучения.
27. Размерность vc нейронной сети.
ПредполагатьдаКласс понятий верхнего измерения vc. с промежуточным слоемНейронная сеть определяется вВышеупомянутая концепция может быть представлена направленным ациклическим графом, как показано на рисунке 3.7, входной узел является нижним узлом, а концепция используется между каждым узломпомечать.
заданный входной векторВыражение следующее. Во-первых, каждыйвходные узлы отмечены как. Далее, чтобы разрешитьПрименяется значение входного узла заднего фронта, получить верхний узелотмечен какзначение .
Рисунок 3.7Есть нейронная сеть с промежуточным слоем.
Обратите внимание, что из-заЗначение находится в, такЗначение находится всередина. Значение верхнего узла или выходного узла также получается путем применения соответствующего понятия к значению узла, допускающего ребро к выходному узлу.
-
(а) Пустьозначает указанное вышеНабор всех нейронных сетей с внутренними узлами. Докажите функцию ростаЕго можно формально ограничить произведением функций роста множества гипотез, определенных на каждом промежуточном слое.
-
(b) использовать его для верхней границыРазмер vc нейронной сети (подсказка: вы можете использоватьправильноэффективный,иэффективный).
-
(с) установитьпороговая функцияОпределенное семейство концептуальных классов. датьиуказаноВерхняя граница измерения vc.
28. Размерность vc выпуклой комбинации. Предполагатьдля подчиненного входного пространствасопоставить ссемейство функций, пустьявляется положительным целым числом. семейство функций данного определенияВерхняя граница размерности vc
(Подсказка: вы можете использовать упражнение 3.27 и его решение).
29. Неограниченное измерение vc.
- (a) Докажите, что если класс понятийСуществуют бесконечные измерения vc, тогда они не поддаются обучению.
- (b) В стандартном сценарии обучения PAC алгоритм обучения сначала получает все примеры, а затем вычисляет свои гипотезы. В этом случае, как упоминалось ранее, класс концепций PAClearning бесконечной размерности vc невозможен.
Теперь представьте себе другой сценарий, в котором алгоритм обучения может переключаться между рисованием дополнительных примеров и вычислениями. Цель этой задачи — продемонстрировать, что PAC-обучение возможно для некоторых концептуальных классов с бесконечными размерностями vc.
Например, рассмотрим класс понятий подмножества всех натуральных чиселособые обстоятельства. У профессора Витреса есть идея для первого этапа алгоритма обучения. На первом этапе L рисует столько точек, что вероятность рисования точек за пределами наблюдаемого максимального значения M мала и с высокой достоверностью. Сможете ли вы реализовать идею профессора Витреса, описав второй этап алгоритма? Следует также показать, что L можно изучить с помощью pac.
30. Случай, когда vc-мерное обобщение ограничено и достижимо. В этом упражнении мы покажем, что в достижимых условиях оценки, данные в следствии 3.19, могут быть улучшены до. Предполагая, что мы находимся в достижимом сценарии, т.е. Целевое понятие содержится в нашем гипотетическом классесередина. Покажем, что если гипотеза с выборкойпоследовательным, то для любого ,
- (а) Пустьесть с образцомНепротиворечивое подмножество гипотез, пустьвыраженный относительно образцаэмпирическая ошибка , и будетопределяется как другой изНезависимая выборка, взятая из . Докажите следующие неравенства для любогоУчредил:
- (б) Доказательство. Используйте это неравенство и результат (а), чтобы доказать, что для любого
- (c) Вместо двух выборок мы можем взять выборку T размером 2m и разделить ее равномерно и случайным образом на S и S'. Правую часть части (б) можно переписать так:
Предполагатьдагипотеза,даОбщее количество ошибок для T, указывающее, что все ошибки попадают вВерхняя граница вероятности равна.
- Часть (b) пункта (d) гласит, что для любого
Используйте эту оценку, чтобы доказать, что любой
- (e) Использовать и привязать к верхней границеЗавершите доказательство неравенства (3.54), показав, что можно получитьГраница порядка с высокой вероятностью обобщения.
31. Границы обобщения на основе чисел покрытия. Предполагатьбудетотображать на действительные числаПодмножество семейства функций. для любого , нормапокрытияочень маленький, так чтоможно закруглить какизохват мяча, т. е. есть, так что для всех,существуети. В частности, когдаявляется компактным множеством, радиус может бытьмячаограниченное покрытие извлекается из покрытия, поэтомуограничено.
Числа покрытия обеспечивают меру сложности класса функций: чем больше число покрытия, тем богаче семейство функций. Цель этой задачи — проиллюстрировать это, доказав границу обучения в случае квадрата потерь. позволятьвыражатьРаспределение на , из которого можно извлечь помеченные примеры. Потом,Ошибка обобщения для квадрата потерь определяется выражениемопределение, которое для меченых образцовЭмпирическая ошибка определяется выражениемопределение. Мы предполагаем, что это ограничено, т.е. существуетсделатьдля всех. Оценка обобщения для доказательства этой проблемы такова:
Доказательство основано на следующих шагах.
- (а) Пусть, то для всехи произвольно помеченные образцы со следующими неравенствами:
- (б) Предположениявозможноподмножествопокрытие, то есть. Затем докажите, что для любого, имеет место следующая верхняя оценка:
- в) Наконец, пустьэто радиус,отцентр, обложка, обозначенный частью (а) для всех,
И применим неравенство Хёффдинга (теорема D.2) для доказательства (3.55).