8 Время выполнения обучения
До сих пор в книге мы рассматривали статистическую перспективу обучения, то есть сколько выборок необходимо для обучения. Другими словами, мы ориентируемся на количество информации, необходимой для обучения. Однако при рассмотрении автоматизированного обучения вычислительные ресурсы также играют важную роль в определении сложности задачи: то есть того, сколько вычислений требуется для выполнения задачи обучения. После того, как учащемуся будет предоставлено достаточное количество обучающих образцов, можно выполнить некоторые вычисления для извлечения гипотез или определения меток для данного экземпляра теста. Все эти вычислительные ресурсы имеют решающее значение для практического применения машинного обучения. Мы называем эти два типа ресурсов примерами сложности и вычислительной сложностью. В этой главе мы обратим внимание на вычислительную сложность обучения.
Вычислительную сложность обучения следует рассматривать в более широком контексте вычислительной сложности общих алгоритмических задач. Эта область была тщательно исследована: см., например, (Sipser 2006). Вводные комментарии, которые следуют ниже, резюмируют основные идеи общей теории, наиболее важные для нашего обсуждения.
Фактическое время работы алгоритма (в секундах) зависит от конкретной машины, на которой реализуется алгоритм (например, производительность машины).CPUкакая тактовая частота). Чтобы избежать зависимости от конкретной машины, принято анализировать время выполнения алгоритма в изотопическом смысле. Например, предположим, что вычислительная сложность алгоритма сортировки слиянием (сортировка списка из n элементов) равна. Это означает, что мы можем реализовать алгоритм на любой машине, удовлетворяющей требованиям некоторой принятой абстрактной вычислительной модели, а фактическое время выполнения в секундах будет удовлетворять следующим требованиям: существуют константы c и, что может зависеть от реальной машины, поэтому для, сортировать любое значение в секундахВремя работы элемента не более. Часто используют термин «выполнимый» или «эффективный» для расчета, который можно рассчитать по времени работы какАлгоритм выполняет несколько многофункциональных п. Обратите внимание, что этот тип анализа зависит от определения входного размера n любого экземпляра, к которому предполагается применить алгоритм. Для задач «чистого алгоритма», как описано в общей литературе по вычислительной сложности, этот размер входных данных четко определен: алгоритм получает входной экземпляр, например, список для сортировки или арифметическую операцию для вычисления, которая имеет хорошо определенный размер (например, для расчета). Для задач машинного обучения понятие размера входных данных не столь однозначно. Алгоритмы предназначены для обнаружения определенных шаблонов в наборе данных и имеют доступ только к случайной выборке этих данных.
Сначала мы обсудим этот вопрос и определим вычислительную сложность обучения. Для продвинутых студентов мы также предоставляем подробные формальные определения. Затем мы переходим к рассмотрению вычислительной сложности реализации правил ERM. Начнем с нескольких примеров гипотетических классов, гдеERMПравила могут быть эффективно применены, а затем рассмотрены некоторые случаи, хотя класс действительно учится эффективно, ноERMРеализация вычислительно сложна. Следовательно, сложность внедрения ERM не означает сложности обучения. Наконец, мы кратко обсудим, как показать сложность данной учебной задачи, то есть ни один алгоритм обучения не может решить ее эффективно.
8.1 Вычислительная сложность обучения
Напомним, что алгоритмы обучения имеют доступ к предметной области,, гипотетический класс,, функция потерь ипо неизвестной раздачеПримерный набор образцов.Алгоритм должен выводить гипотезу, так что вероятность не менее
Как упоминалось ранее, фактическое время работы алгоритма в секундах зависит от конкретной машины. Чтобы обеспечить машинно-независимый анализ, мы используем стандартные методы теории вычислительной сложности. Во-первых, мы полагаемся на понятие абстрактных машин, таких как машины Тьюринга (или машины Тьюринга над реальным (Blum, Schub, & Smalley, 1989). Во-вторых, мы анализируем значение времени работы в асимпатическом смысле. Постоянный фактор игнорируется, поэтому конкретная машина не имеет значения, если она реализует абстрактную машину. Как правило, неизотопность связана с размером входных данных алгоритма. Например, для алгоритма сортировки слиянием, упомянутого ранее, мы запустим временной анализ A Функция для количества элементов, подлежащих сортировке.
С точки зрения алгоритмов обучения не существует явного понятия «размер ввода». Можно определить размер входных данных как размер обучающей выборки, полученной алгоритмом, но это бессмысленно. Если мы дадим алгоритму очень большое количество примеров, намного превышающее сложность выборки задачи обучения, алгоритм может проигнорировать лишние примеры. Следовательно, больший обучающий набор не усложняет задачу обучения, и, следовательно, время работы алгоритма обучения не должно увеличиваться по мере увеличения размера обучающего набора. Точно так же мы все еще можем анализировать время выполнения как функцию естественных параметров задачи, таких как точность цели, уверенность в достижении этой точности, размерность набора доменов или сравнение некоторой меры сложность гипотетического класса с выходом алгоритма.
Чтобы проиллюстрировать это, рассмотрим алгоритм обучения для задачи изучения прямоугольников, выровненных по оси. Изучите конкретную проблему прямоугольников, выровненных по оси, указави размер пространства экземпляра. мы можем исправитьи измените размер наопределить ряд задач типа «обучения прямоугольником», мы также можем исправить это с помощьюи измените целевую точность наопределить другую последовательность задач «обучения прямоугольником». Конечно, можно выбрать и другие последовательности таких задач. Как только последовательность проблем зафиксирована, можно проанализировать время работы без звука как функцию переменных последовательности.
Прежде чем мы сможем ввести формальное определение, нам нужно рассмотреть более тонкий вопрос. Основываясь на вышеизложенном, алгоритмы обучения могут «обманывать», перекладывая вычислительную нагрузку на исходные предположения. Например, алгоритм может просто определить выходную гипотезу как функцию, которая хранит в памяти свой обучающий набор, и всякий раз, когда он получает тестовый пример, он вычисляетERMгипотеза и вприменить его на. Обратите внимание, что в этом случае наш алгоритм имеет фиксированный результат (т. е. функцию, которую мы только что описали) и может работать за постоянное время. Однако обучение по-прежнему затруднено — теперь в выходном классификаторе реализована жесткость для получения прогнозов меток. Чтобы предотвратить этот «обман», мы требуем, чтобы выходные данные алгоритма обучения применялись для прогнозирования меток новых примеров не дольше, чем время выполнения обучения (т. е. вычисление выходного классификатора из входных обучающих примеров). В следующем подразделе продвинутые читатели могут найти формальное определение вычислительной сложности для обучения.
8.1.1 Формальные определения*
Приведенные ниже определения основаны на понятии фундаментальной абстрактной машины, которая обычно является машиной Тьюринга или машиной Тьюринга над вещественным числом. Мы будем измерять вычислительную сложность алгоритма, используя количество «операций», которые должен выполнить алгоритм. Мы предполагаем, что для любой машины, реализующей базовый абстрактный компьютер, существует константа, так что любое такое "действие" сработает на автоматесекунд для выполнения.
Определение 8.1(Вычислительная сложность алгоритма обучения) Мы определяем сложность обучения в два этапа. Во-первых, мы рассматриваем вычислительную сложность фиксированной задачи обучения (состоящей из троек () и набор доменов, класс эталонной гипотезы и решение функции потерь). Затем, на втором этапе, мы рассматриваем скорость изменения этой сложности с точки зрения ряда таких задач.
- учитывая функцию, учебная задачаи алгоритм обучения, мы говоримвремя решать учебные задачиЕсли есть постоянные числа, например, для каждого распределения вероятностейПревосходить, и ввод, когда A имеет доступ к образцу i.i.d., сгенерированному
- выполнить не болееПрекратить после операции
- выход (представляющий) можно использовать для прогнозирования меток для новых примеров при выполнении не болеедействовать
- Выход, вероятно, будет приблизительно правильным: то есть с вероятностью не менее(более чем случайная выборкаперенимать),
- Рассмотрите ряд проблем обучения, где проблемапо домену, гипотетический класси функция потерьопределение. позволятьбыть алгоритмом обучения для решения этой формы задачи обучения. заданная функция,мы говоримВремя выполнения предыдущей последовательности равно, если для всехПроблема решена своевременно,вЗависит отопределение.
Мы говорим, что еслиВремя работы,нодля многочленапоследовательностьявляется эффективным алгоритмом.
Из этого определения мы видим, что возможность эффективного решения общей учебной задачи зависит от того, как она разлагается на ряд конкретных учебных задач. Например, рассмотрим задачу изучения класса конечных гипотез. Как мы показали в предыдущих главах, если количество обучающих примеровлог (тогдаизERMГарантия правил). Предполагая, что оценка примерной гипотезы занимает постоянное время, ее можно реализовать за времяERMправилочерез паруПроведите исчерпывающий поиск и приходите с набором размеровОбучающий набор. для любого фиксированного конечного, алгоритм исчерпывающего поиска запускается несколько раз. Более того, если мы определим ряд задач, где, полный поиск по-прежнему считается действительным. Однако если мы определим ряд задач, то сложность выборки по-прежнемунесколько существительных в , но вычислительная сложность алгоритма полного перебора увеличивается срастет в геометрической прогрессии (следовательно, рендеринг неэффективен).
8.2 Внедрение правил ERM
Учитывая гипотетический класс,ERM Правила, пожалуй, самая естественная парадигма обучения. Кроме того, для задач бинарной классификации мы видим, что если обучение возможно, тоERMПравила возможны. В этом разделе мы обсудили реализацию для нескольких гипотетических классов.ERMВычислительная сложность правил.
Учитывая гипотетический класс,, набор доменови функция потерь,соответствующийERM Правила можно определить как:
пример с ограниченным вводомвывод о, чтобы свести к минимуму потерю опыта,.
Выполнение этого исследованияERMВремя выполнения правил для нескольких примеров обучающих задач.
8.2.1 Конечные классы
Ограничение класса гипотез конечным классом можно рассматривать как довольно мягкое ограничение. Например,Может быть набором всех предикторов, которые могут быть реализованы программой на C++, написанной до 10000 битов кода. Другими примерами полезных конечных классов являются любые гипотетические классы, которые могут быть параметризованы конечным числом параметров, и мы довольствуемся использованием конечного числа битов для представления каждого параметра, например, когда параметры, определяющие любой данный прямоугольник, определяют классы для прямоугольники с выравниванием по осям в евклидовом пространстве с некоторой ограниченной точностью.
Как мы показали в предыдущих главах, примерная сложность изучения конечных классов ограниченаверхний предел которогогде достижимо ипри невозможных обстоятельствах. Таким образом, сложность выборкиЕсть небольшая зависимость от размера. Взяв в качестве примера программу C++, упомянутую ранее, предполагаемая величина равна, но сложность выборки составляет всего
Реализовано в ограниченных гипотетических классахERMПростой способ установить правило — выполнить исчерпывающий поиск. То есть для каждого, вычисляем эмпирический риски возвращает гипотезу, минимизирующую эмпирический риск. Предполагая, что на одном примереОценка занимает постоянное время k, время выполнения этого полного перебора станет равным,вэто размер обучающей выборки. Если мы позволим мне быть верхней границей сложности приведенных выше примеров, то время выполнения станет равным.
пара времени работыЛинейная зависимость размера делает этот подход неэффективным (и непрактичным) для больших классов. Формально, если мы определим ряд задачТакой, то метод исчерпывающего поиска дает экспоненциальное время выполнения. В примере программы на C++, еслиможно пройти доНабор функций, реализованных программой на C++, написанной в битовом коде, время выполнения будет увеличиваться в геометрической прогрессии, а это означает, что метод полного перебора нецелесообразен для практического использования. На самом деле эта проблема является одной из причин, по которой мы имеем дело с другими гипотетическими классами, такими как линейные предикторы, с которыми мы столкнемся в следующей главе, а не просто сосредотачиваемся на ограниченных классах.
Важно понимать, что только потому, что алгоритмический подход (такой как полный перебор) неэффективен, не означает, что не существует эффективных методов.ERMвыполнить. На самом деле мы покажем, что можно эффективно выполнятьERMпример правил
8.2.2 Осесимметричные прямоугольники
позволятьстатьКласс оси выровненного по центру прямоугольника, т.е.
тем самым
Эффективное обучение, когда оно достижимо
Рассмотрите возможность внедрения там, где это возможноERMправило. То есть мы получаем наборнапример, чтобы существовал выровненный по оси прямоугольник,,к этому концудля всех. Наша цель — найти такой выровненный по оси прямоугольник с нулевой ошибкой обучения, то есть прямоугольник, который согласуется со всеми метками выше S.
Позже мы докажем, что это можно сделать за время. В самом деле, для каждого, настраиватьи. Другими словами, мы положилив видеПервый из примеров Zhongzhengминимальное значение координат,в видеПервый из примеров Zhongzhengмаксимальное значение координат. Легко проверить, что сгенерированные прямоугольники не имеют ошибок обучения, и найти каждыйиВремя работы. Таким образом, общее время выполнения этого процесса равно.
Неспособность эффективно учиться, не будучи агностиком
В агностике мы не принимаем определенные предположенияМетки всех примеров в обучающем наборе точно предсказаны. Поэтому наша цель найти, тем самым сводя к минимумуколичество примеров. Оказывается, что для многих распространенных гипотетических классов, включая рассматриваемый нами класс выровненных по оси прямоугольников, решение в независимой настройкеERMпроблема в том(в большинстве случаев даже трудно найти некоторые, погрешность которого не превышает некоторой постояннойумноженная на минимизацию эмпирического риска присередина). То есть, если, иначе время работы без алгоритма равноимногозначных в , гарантированно найдется для этих задачERMГипотеза (Бен-Дэвид, Айрон и Лонг, 2003).
С другой стороны, стоит отметить, что если мы зафиксируем конкретный гипотетический класс, например, выровненные по оси прямоугольники в некотором фиксированном измеренииТогда есть эффективные алгоритмы обучения для этого класса. Другими словами, существует успешный агностицизм.PACученик, визапускать полиномы во времени (но их зависимость от размерности n не является полиномиальной).
Чтобы увидеть эту ситуацию, просмотрите наше предложение для достижимого случая.ERMвыполнение правил, из которых можно определить доВыровненный по оси прямоугольник в этом примере. Поэтому при указании размераКогда тренировочный наборВыполните полный поиск по всем подмножествам обучающего набора из 3 примеров и постройте прямоугольник из каждого такого подмножества. Затем мы можем выбрать прямоугольник с наименьшим количеством ошибок обучения. Этот процесс гарантирует нахождениеERMгипотеза, а время выполнения процесса равно. Следовательно, еслификсировано, то время работы является полиномом от размера выборки. Это не противоречит приведенным выше результатам твердости, потому что там мы утверждаем, что еслиНе может быть алгоритма, которыйЗависимости также многогранны.
8.2.3 Логические соединения
Булевы союзы происходят отприбытьОтображение , которое может быть представлено в виде таблицыПропозициональная формула , для некоторых показателейФункция, определяемая такой пропозициональной формулой, есть
позволятьБыть классом всех булевых соединений над.размер не более(Поскольку в формуле соединения каждый элемент x либо появляется, либо знак отрицания, либо вообще отсутствует, у нас также есть все отрицательные формулы). Поэтому используйтеERMизучение правилСложность выборки не более.
Эффективное обучение, когда оно достижимо
Далее покажем, что можно решить за времяизERMпроблема. Идея состоит в том, чтобы определить, включив в гипотезу все буквальные комбинации, которые не противоречат ни одному положительному примеру отметки.ERMкомбинировать. позволятьбыть входным примеромВсе экземпляры положительной маркировки в . мы проходим вПо индукции определить набор предположений (или конъюнкций). Давайте будем комбинацией всех возможных литералов. который. Пожалуйста, обрати внимание,присвоить метку 0всех элементов. Получаем удалением из соединения всех неудовлетворенных литералов. Алгоритм выводит гипотезу. Пожалуйста, обрати внимание,Наклейка Наклейка на лицевой стороне Все примеры маркировки на лицевой стороне в формате S. Кроме того, для каждого,является самой строгой обязывающей этикеткойТеперь, поскольку мы рассматриваем обучение в достижимых условиях, существует обязывающая гипотеза,, что то же самое, чтоВсе примеры в . так какявляется строжайшей привязкой, маркирующей положительно все положительные маркировкичлен, любой тег экземпляраЗависит оттакже отмеченЗависит от. следовательно,нет ошибок обученияПоэтому законныйERMгипотеза. Обратите внимание, что время работы этого алгоритма равно.
Неспособность эффективно учиться, не будучи агностиком
Как и в случае прямоугольников, выровненных по оси, за исключением, иначе время работы без алгоритма равноимногозначные в , которые гарантированно будут найдены для логических классов привязки в случае, когда это невозможноERMгипотеза.
8.2.4 Изучение трехчленной ДНФ
Далее мы покажем, что небольшое обобщение класса логической конкатенации приводит, даже когда это достижимо, к решениюERMнеразрешимость проблемы. Рассмотрим формулу 3-периодной нормальной формы разделения (3 термина ДНФ) категория. Пространство экземпляра, каждая гипотеза задается в видеБулева формула представления , где каждыйявляется логической ассоциацией (как определено в предыдущем разделе). еслиВыходная метка 1, выход h(x) равен 1. Если все три конкатенации выводят метку 0, то.
позволятьВ качестве гипотетического класса для всех таких формул cпо крайней мере, размер, поэтому используйтеERMизучение правилПримерная сложность не более.
Однако эта задача обучения сложна с вычислительной точки зрения. Было показано (см. (Pete and Valiant 1988, Kearns et al. 1994)), если только, без множественных временных алгоритмов правильно выучить серию3 термина ДНФпроблемы с обучением, где первоеРазмерность вопроса. Под «правильным» мы подразумеваем, что алгоритм должен выводить предположение, что3 термина ДНФ. В частности, посколькувывод3 термина ДНФформула, это правильный ученик, поэтому ее трудно реализовать. Доказательство использует сокращение задачи графа с тремя цветами.PACучиться3 термина ДНФПроблема. Подробные техники на практикеприведены в. См. также (Кернс и Вазирани, 1994, раздел 1.4).
8.3 Эффективное обучение, но не с помощью надлежащего ERM
В предыдущем разделе мы видели, что это невозможно сделать эффективно.шаблонныйсвоего родаERMправило. В этом разделе мы покажем, что этот класс может быть изучен эффективно, но с использованиемERMучиться в больших классах.
Представлять самостоятельное обучение не сложно
Далее мы покажем, что можно эффективно учиться3 термина ДНФформула. Нет противоречия с результатами по сложности, упомянутыми в предыдущем разделе, поскольку теперь мы допускаем «репрезентативное независимое» обучение. То есть мы позволяем алгоритму обучения выводить гипотезу, которая не3 термина формула ДНФ. Основная идея состоит в том, чтобы3 термина формула ДНФИсходный класс гипотез заменяется более крупным классом гипотез, чтобы новый класс было легко изучить. Алгоритмы обучения могут возвращать гипотезы, не принадлежащие исходному классу гипотез: отсюда и название «независимое» обучение. Подчеркнем, что в большинстве случаев нас действительно интересует возвращение гипотез с хорошей предсказательной силой.
Сначала мы замечаем, что, посколькураспространяется в, каждый3 термина формула ДНФФормулу можно переписать как
Далее давайте определим, так что для каждой тройкисуществуетВ области видимости есть переменная, которая указывает вамЭто правда или ложь. Поэтому для каждого болееиз3 термина ДНФформула, существует более, с той же таблицей истинности. Поскольку мы предполагаем, что данные достижимы, мы можем решитьERMпроблема, ссылка на группу превышаетКроме того, примерная сложность изучения связанных классов в многомерных пространствах не превышает. Таким образом, общее время работы этого метода больше, чем.
Интуитивно идея выглядит следующим образом. Мы начали с гипотетического урока, который было трудно усвоить. Мы переключаемся на другое представление, предполагая, что класс больше исходного, но имеет более сложную структуру, что позволяет более эффективноERMпоиск. В новой формулировке решитьERMПроблема проста.
8.4 Трудность обучения*
Мы только что доказали, что реализацияРасчетная твердость не предполагает такогоКлассы нельзя выучить. Как доказать, что проблема обучения неразрешима?
Один из способов — полагаться на криптографические предположения. В некотором смысле криптография — это полная противоположность обучению. При обучении мы пытаемся обнаружить некоторые правила — основу примеров, которые мы видели, тогда как в криптографии цель состоит в том, чтобы гарантировать, что никто не сможет раскрыть какой-либо секрет, несмотря на то, что он может получить некоторую частичную информацию о нем. В рамках этой высокоуровневой интуиции результаты о криптографической безопасности некоторых систем трансформируются в результаты о необучаемости некоторых соответствующих задач. К сожалению, в настоящее время нет способа доказать, что протоколы шифрования невзламываемы. даже еслиОбщепринятого предположения также недостаточно, чтобы доказать это (хотя оно может оказаться необходимым для большинства распространенных сценариев шифрования). Обычный способ доказать, что криптографический протокол безопасен, состоит в том, чтобы начать с некоторых криптографических предположений. Чем больше они используются в качестве основы для криптографии, тем больше мы уверены, что они действительно будут выполняться (или, по крайней мере, трудно найти алгоритмы, которые их опровергнут).
Теперь мы кратко опишем основную идею того, как сложность обучаемости выводится из криптографических предположений. Многие криптографические системы полагаются на предположение, что существует односторонняя функция. Грубо говоря, односторонняя функция — это функция(Более формально, это последовательность функций, каждое измерение) легко вычислить, но трудно инвертировать. Более формально,Многозначность может быть рассчитана по времени (), но для любого случайного многократного алгоритмаи каждое многозначноерассчитать.
в соответствии сравномерное распределение иСлучайность , принимает вероятность болееслучайный выбор.
односторонняя функцияназывается Trapdoor односторонним функциями, если для некоторых нескольких функций, для каждогоСуществующая длинабитовая строка(называемый секретным ключом), поэтому существует несколько временных алгоритмов, которые используются для каждогои каждый, для вводавыводДругими словами, хотяТрудно инвертировать, но как только люди получат доступ к своему секретному ключу, инвертироватьстановится осуществимым. Эти функции параметризуются своими секретными ключами.
Теперь позвольтестать лазейкой всемейства, эти функции могут быть вычислены некоторыми многократными алгоритмами времени. То есть мы фиксируем алгоритм, который дает секретный ключ (представляющийфункция в ) и входной вектор, который вычисляет значение функции, соответствующей секретному ключу во входном векторе, за несколько квот. Рассмотрим задачу изучения соответствующего обратного класса,. Поскольку к каждой функции в этом классе можно получить доступ с помощьюсекретный ключ полинома определенного размера вс ног на голову,Классы могут быть параметризованы этими ключами, и их размер не превышает. Поэтому сложность его образцов кратна. Мы утверждаем, что в этом классе нет эффективных учеников. Если есть такой ученик,, то методом случайной выборкистроку с несколькими квотами и вычислитьНа них мы можем сгенерировать отмеченную пару, что должно быть достаточно для наших учащихся, чтобы понятьприблизительный(существуетравномерное распределение в диапазоне), что нарушило быоднонаправленное свойство.
Более подробное рассмотрение, а также конкретный пример можно найти в (Кернс и Вазирани, 1994, глава 6). Используя сокращения, они также показывают, что классы функций, которые могут быть вычислены с помощью небольших логических схем, не могут быть изучены эффективно, даже если это достижимо.
8.5 Резюме
Время работы алгоритма обучения анализируется без того же имени как функция различных параметров задачи обучения, таких как размер класса гипотез, наша мера точности, наша мера достоверности или размер набора доменов. Мы продемонстрировали, что можно эффективно выполнятьERMслучае правил. Например, мы выводим решения для класса логической связи и класса прямоугольников, выровненных по осям, в предположении о реализуемости.ERMЭффективный алгоритм решения проблемы. Однако внедрить ERM для этих классов сложно, не будучи агностиком. Напомним, что со статистической точки зрения нет никакой разницы между реализуемым случаем и агностическим случаем (т. е. если и только если существует конечная размерность VC, в обоих случаях класс является образовательным). Напротив, как мы видим, разница огромна с вычислительной точки зрения. Мы также показываем другой пример,3 термина ДНФкласс, реализующийERMТрудный, даже когда достижимый, класс может быть эффективно изучен другим алгоритмом.
Реализовано в нескольких классах естественных гипотезERMЖесткость правил побудила к разработке альтернативных методов обучения, которые мы обсудим в следующей части этой книги.
8.6 Библиографическое описание
Valiant (1984) представил эффективныеPACИзучите модель, в которой требуется время работы алгоритма.Полином от и предполагаемый размер представления в классе. Подробное обсуждение и обширные библиографические примечания приведены у Kearns and Wazirani (1994).
8.7 Упражнение
1, пустьстановится интервальным классом на линии (формально эквивалентным размерувыровненный по оси прямоугольник в ). рекомендуемая реализацияправила обучения (в агностическом случае) с заданным набором размеровтренировочный набор, бег на время.
2, пустьПредположим, что алгоритм обучения реализован там, где это достижимо.ERMправила, поэтому каждыйВыходная гипотеза алгоритма класса зависит только отПример. Кроме того, предполагается, что этиПример (времяТакие допущения рассчитываются, и эмпирический риск для каждого такого допущения может быть сделан вовремя.оценивать. Например, еслидаВыровненный по оси класс среднего прямоугольника, мы находим, что самое большееДостижимый случай, определяемый примером, может быть найденERMгипотеза. Докажите, что в этом случае можно найти невозможноеизERMгипотеза
3. В этом упражнении мы предлагаем несколько классов и находимERMКлассификаторы сложны в вычислительном отношении. Сначала введем класс n-мерных полупространств HSn для области X = Rn. Это класс всех функций вида hw,b(x) = symbol (hw,xi = b), где w,x ∈ Rn, hw,xi — их внутренние произведения, b ∈ R. Подробное описание см. в главе 9.