chapter 8 The Runtime of Learning

машинное обучение искусственный интеллект

8 Время выполнения обучения

До сих пор в книге мы рассматривали статистическую перспективу обучения, то есть сколько выборок необходимо для обучения. Другими словами, мы ориентируемся на количество информации, необходимой для обучения. Однако при рассмотрении автоматизированного обучения вычислительные ресурсы также играют важную роль в определении сложности задачи: то есть того, сколько вычислений требуется для выполнения задачи обучения. После того, как учащемуся будет предоставлено достаточное количество обучающих образцов, можно выполнить некоторые вычисления для извлечения гипотез или определения меток для данного экземпляра теста. Все эти вычислительные ресурсы имеют решающее значение для практического применения машинного обучения. Мы называем эти два типа ресурсов примерами сложности и вычислительной сложностью. В этой главе мы обратим внимание на вычислительную сложность обучения.

\qquadВычислительную сложность обучения следует рассматривать в более широком контексте вычислительной сложности общих алгоритмических задач. Эта область была тщательно исследована: см., например, (Sipser 2006). Вводные комментарии, которые следуют ниже, резюмируют основные идеи общей теории, наиболее важные для нашего обсуждения.

\qquadФактическое время работы алгоритма (в секундах) зависит от конкретной машины, на которой реализуется алгоритм (например, производительность машины).CPUкакая тактовая частота). Чтобы избежать зависимости от конкретной машины, принято анализировать время выполнения алгоритма в изотопическом смысле. Например, предположим, что вычислительная сложность алгоритма сортировки слиянием (сортировка списка из n элементов) равнаO(nlog(n))О (n журнал (n)). Это означает, что мы можем реализовать алгоритм на любой машине, удовлетворяющей требованиям некоторой принятой абстрактной вычислительной модели, а фактическое время выполнения в секундах будет удовлетворять следующим требованиям: существуют константы c иn0n_0, что может зависеть от реальной машины, поэтому дляn>n0n>n_0, сортировать любое значение в секундахnnВремя работы элемента не болееcn(log(n))cn(log(n)). Часто используют термин «выполнимый» или «эффективный» для расчета, который можно рассчитать по времени работы какO(p(n))О (р (п))Алгоритм выполняет несколько многофункциональных п. Обратите внимание, что этот тип анализа зависит от определения входного размера n любого экземпляра, к которому предполагается применить алгоритм. Для задач «чистого алгоритма», как описано в общей литературе по вычислительной сложности, этот размер входных данных четко определен: алгоритм получает входной экземпляр, например, список для сортировки или арифметическую операцию для вычисления, которая имеет хорошо определенный размер (например, для расчета). Для задач машинного обучения понятие размера входных данных не столь однозначно. Алгоритмы предназначены для обнаружения определенных шаблонов в наборе данных и имеют доступ только к случайной выборке этих данных.

\qquadСначала мы обсудим этот вопрос и определим вычислительную сложность обучения. Для продвинутых студентов мы также предоставляем подробные формальные определения. Затем мы переходим к рассмотрению вычислительной сложности реализации правил ERM. Начнем с нескольких примеров гипотетических классов, гдеERMПравила могут быть эффективно применены, а затем рассмотрены некоторые случаи, хотя класс действительно учится эффективно, ноERMРеализация вычислительно сложна. Следовательно, сложность внедрения ERM не означает сложности обучения. Наконец, мы кратко обсудим, как показать сложность данной учебной задачи, то есть ни один алгоритм обучения не может решить ее эффективно.

8.1 Вычислительная сложность обучения

Напомним, что алгоритмы обучения имеют доступ к предметной области,Z\mathcal{Z}, гипотетический класс,H\mathcal{H}, функция потерь иZ\mathcal{Z}по неизвестной раздачеD\mathcal{D}Примерный набор образцов.ϵ,δ\эпсилон, \дельтаАлгоритм должен выводить гипотезуhh, так что вероятность не менее1δ1-\delta

LD(h)minh'еHLD(h')+ϵL_{\mathcal{D}}(h)\leq \underset{h^{'}\in \mathcal{H}}{min}L_{\mathcal{D}}(h^{'})+\epsilon

\qquadКак упоминалось ранее, фактическое время работы алгоритма в секундах зависит от конкретной машины. Чтобы обеспечить машинно-независимый анализ, мы используем стандартные методы теории вычислительной сложности. Во-первых, мы полагаемся на понятие абстрактных машин, таких как машины Тьюринга (или машины Тьюринга над реальным (Blum, Schub, & Smalley, 1989). Во-вторых, мы анализируем значение времени работы в асимпатическом смысле. Постоянный фактор игнорируется, поэтому конкретная машина не имеет значения, если она реализует абстрактную машину. Как правило, неизотопность связана с размером входных данных алгоритма. Например, для алгоритма сортировки слиянием, упомянутого ранее, мы запустим временной анализ A Функция для количества элементов, подлежащих сортировке.

\qquadС точки зрения алгоритмов обучения не существует явного понятия «размер ввода». Можно определить размер входных данных как размер обучающей выборки, полученной алгоритмом, но это бессмысленно. Если мы дадим алгоритму очень большое количество примеров, намного превышающее сложность выборки задачи обучения, алгоритм может проигнорировать лишние примеры. Следовательно, больший обучающий набор не усложняет задачу обучения, и, следовательно, время работы алгоритма обучения не должно увеличиваться по мере увеличения размера обучающего набора. Точно так же мы все еще можем анализировать время выполнения как функцию естественных параметров задачи, таких как точность цели, уверенность в достижении этой точности, размерность набора доменов или сравнение некоторой меры сложность гипотетического класса с выходом алгоритма.

\qquadЧтобы проиллюстрировать это, рассмотрим алгоритм обучения для задачи изучения прямоугольников, выровненных по оси. Изучите конкретную проблему прямоугольников, выровненных по оси, указавϵ,δ\эпсилон, \дельтаи размер пространства экземпляра. мы можем исправитьϵ,δ\эпсилон, \дельтаи измените размер наd=2,3,4г = 2, 3, 4 \cdotsопределить ряд задач типа «обучения прямоугольником», мы также можем исправить это с помощьюd,δд. \ дельтаи измените целевую точность наϵ=12,13\epsilon=\frac{1}{2}, \frac{1}{3}\cdotsопределить другую последовательность задач «обучения прямоугольником». Конечно, можно выбрать и другие последовательности таких задач. Как только последовательность проблем зафиксирована, можно проанализировать время работы без звука как функцию переменных последовательности.

\qquadПрежде чем мы сможем ввести формальное определение, нам нужно рассмотреть более тонкий вопрос. Основываясь на вышеизложенном, алгоритмы обучения могут «обманывать», перекладывая вычислительную нагрузку на исходные предположения. Например, алгоритм может просто определить выходную гипотезу как функцию, которая хранит в памяти свой обучающий набор, и всякий раз, когда он получает тестовый примерxx, он вычисляетERMгипотеза и вxxприменить его на. Обратите внимание, что в этом случае наш алгоритм имеет фиксированный результат (т. е. функцию, которую мы только что описали) и может работать за постоянное время. Однако обучение по-прежнему затруднено — теперь в выходном классификаторе реализована жесткость для получения прогнозов меток. Чтобы предотвратить этот «обман», мы требуем, чтобы выходные данные алгоритма обучения применялись для прогнозирования меток новых примеров не дольше, чем время выполнения обучения (т. е. вычисление выходного классификатора из входных обучающих примеров). В следующем подразделе продвинутые читатели могут найти формальное определение вычислительной сложности для обучения.

8.1.1 Формальные определения*

Приведенные ниже определения основаны на понятии фундаментальной абстрактной машины, которая обычно является машиной Тьюринга или машиной Тьюринга над вещественным числом. Мы будем измерять вычислительную сложность алгоритма, используя количество «операций», которые должен выполнить алгоритм. Мы предполагаем, что для любой машины, реализующей базовый абстрактный компьютер, существует константаcc, так что любое такое "действие" сработает на автоматеccсекунд для выполнения.

Определение 8.1(Вычислительная сложность алгоритма обучения) Мы определяем сложность обучения в два этапа. Во-первых, мы рассматриваем вычислительную сложность фиксированной задачи обучения (состоящей из троек (Z,H\mathcal{Z, H}) и набор доменов, класс эталонной гипотезы и решение функции потерь). Затем, на втором этапе, мы рассматриваем скорость изменения этой сложности с точки зрения ряда таких задач.

  1. учитывая функциюf:(0,1)2Nf : (0, 1)^2 \rightarrow \mathbb N, учебная задача(Z,H,l)\mathcal{(Z, Н, л)}и алгоритм обученияA\mathcal{A}, мы говоримA\mathcal{A}время решать учебные задачиO(f)Из)Если есть постоянные числаcc, например, для каждого распределения вероятностейD\mathcal DПревосходитьZZ, и вводϵ,δе(0,1)\эпсилон,\дельта\в (0, 1), когда A имеет доступ к образцу i.i.d., сгенерированномуD\mathcal D
  • A\mathcal Aвыполнить не болееcf(ϵ,δ)cf(\эпсилон,\дельта)Прекратить после операции
  • A\mathcal Aвыход (представляющийhAh_\mathcal{A}) можно использовать для прогнозирования меток для новых примеров при выполнении не болееcf(ϵ,δ)cf(\эпсилон,\дельта)действовать
  • A\mathcal AВыход, вероятно, будет приблизительно правильным: то есть с вероятностью не менее1δ1-\delta(более чем случайная выборкаA\mathcal Aперенимать),LD(hA)minh'еHlD(h')+ϵL_\mathcal D(h_\mathcal A)\leq min_{h^{'}\in \mathcal H} l_\mathcal D(h^{'})+\epsilon
  1. Рассмотрите ряд проблем обучения(Zn,Hn,ln)n=1(Z_n, \mathcal H_n, l_n)_{n=1}^\infty, где проблемаnnпо доменуZnZ_n, гипотетический классHn\mathcal H_nи функция потерьlnl_nопределение. позволятьA\mathcal Aбыть алгоритмом обучения для решения этой формы задачи обучения. заданная функцияg:N×(0,1)2Ng : \mathbb N\times(0, 1)^2\стрелка вправо\mathbb N,мы говоримA\mathcal AВремя выполнения предыдущей последовательности равноO(g)O(g), если для всехn,An, \mathcal AПроблема решена своевременно(Zn,Hn,ln)(Z_n,\mathcal H_n, l_n)fn:(0,1)2Nf_n:(0,1)^2\rightarrow \mathbb N Зависит отfn(ϵ,δ)=g(n,ϵ,δ)f_n(\epsilon,\delta)=g(n,\epsilon,\delta)определение.

Мы говорим, что еслиA\mathcal AВремя работыO(p(n,1/ϵ,1/δ))O(p(n,1/\epsilon,1/\delta)),ноA\mathcal Aдля многочленаppпоследовательность(Zn,Hn,ln)(Z_n, \mathcal H_n, l_n)является эффективным алгоритмом.

\qquadИз этого определения мы видим, что возможность эффективного решения общей учебной задачи зависит от того, как она разлагается на ряд конкретных учебных задач. Например, рассмотрим задачу изучения класса конечных гипотез. Как мы показали в предыдущих главах, если количество обучающих примеровmH(ϵ,δ)=log(H/δ)/ϵ2m_\mathcal H(\epsilon,\delta)=log(\mid H\mid/\delta)/\epsilon^2лог (тогдаH\mathcal HизERMГарантия правил(ϵ,δ)учитьсяH(\epsilon,\delta)-обучение\mathcal{H}). Предполагая, что оценка примерной гипотезы занимает постоянное время, ее можно реализовать за времяERMправилоO(HmH(ϵ,δ))O(\mid \mathcal H\mid m_{\mathcal H}(\epsilon,\delta))через паруH\mathcal HПроведите исчерпывающий поиск и приходите с набором размеровmH(ϵ,δ)m_{\mathcal H}(\epsilon,\delta)Обучающий набор. для любого фиксированного конечногоH\mathcal H, алгоритм исчерпывающего поиска запускается несколько раз. Более того, если мы определим ряд задач, гдеHn=n\mid \mathcal H_n\mid=n, полный поиск по-прежнему считается действительным. Однако если мы определим ряд задачHn=2n\mid \mathcal H_n\mid=2^n, то сложность выборки по-прежнемуnnнесколько существительных в , но вычислительная сложность алгоритма полного перебора увеличивается сnnрастет в геометрической прогрессии (следовательно, рендеринг неэффективен).

8.2 Внедрение правил ERM

Учитывая гипотетический классH\mathcal H,ERM H_\mathcal HПравила, пожалуй, самая естественная парадигма обучения. Кроме того, для задач бинарной классификации мы видим, что если обучение возможно, тоERMПравила возможны. В этом разделе мы обсудили реализацию для нескольких гипотетических классов.ERMВычислительная сложность правил.

\qquadУчитывая гипотетический класс,H\mathcal H, набор доменовZZи функция потерьll,соответствующийERM H_\mathcal HПравила можно определить как:

\qquad\qquadпример с ограниченным вводомSеZmS\in Z^mвывод оhеHh\in H, чтобы свести к минимуму потерю опыта,LS(h)=1SzеSl(h,z)L_S(h)=\frac{1}{\mid S\mid}\sum_{z\in S}l(h,z).

\qquad\qquadВыполнение этого исследованияERMВремя выполнения правил для нескольких примеров обучающих задач.

8.2.1 Конечные классы

Ограничение класса гипотез конечным классом можно рассматривать как довольно мягкое ограничение. Например,H\mathcal HМожет быть набором всех предикторов, которые могут быть реализованы программой на C++, написанной до 10000 битов кода. Другими примерами полезных конечных классов являются любые гипотетические классы, которые могут быть параметризованы конечным числом параметров, и мы довольствуемся использованием конечного числа битов для представления каждого параметра, например, когда параметры, определяющие любой данный прямоугольник, определяют классы для прямоугольники с выравниванием по осям в евклидовом пространстве с некоторой ограниченной точностьюRd\mathbb R^d.

\qquadКак мы показали в предыдущих главах, примерная сложность изучения конечных классов ограниченаmH(ϵ,δ)=clog(cH/δ)/ϵcm_\mathcal H(\epsilon,\delta) = clog(c|\mathcal H|/\delta)/\epsilon^cверхний предел которогоc=1c = 1где достижимо иc=2c = 2при невозможных обстоятельствах. Таким образом, сложность выборкиH\mathcal HЕсть небольшая зависимость от размера. Взяв в качестве примера программу C++, упомянутую ранее, предполагаемая величина равна210,0002^{10,000}, но сложность выборки составляет всегоc(10,000+log(c/δ))/ϵcc(10,000+log(c/\delta))/\epsilon^c

\qquadРеализовано в ограниченных гипотетических классахERMПростой способ установить правило — выполнить исчерпывающий поиск. То есть для каждогоhеHh\in \mathcal H, вычисляем эмпирический рискLS(h)L_S(h)и возвращает гипотезу, минимизирующую эмпирический риск. Предполагая, что на одном примереl(h,z)l(h,z)Оценка занимает постоянное время k, время выполнения этого полного перебора станет равнымkHmk\mid \mathcal H\mid_mmmэто размер обучающей выборки. Если мы позволим мне быть верхней границей сложности приведенных выше примеров, то время выполнения станет равнымkHclog(cH/δ)/ϵck |\mathcal H| c log(c| \mathcal H|/\delta)/\epsilon^c.

\qquadпара времени работыH\mathcal HЛинейная зависимость размера делает этот подход неэффективным (и непрактичным) для больших классов. Формально, если мы определим ряд задач(Zn,Hn,ln)n=1(Z_n,H_n,l_n)^\infty_{n=1}Такойlog(Hn)=nlog(|\mathcal H_n|)=n, то метод исчерпывающего поиска дает экспоненциальное время выполнения. В примере программы на C++, еслиHn\mathcal H_nможно пройти доnnНабор функций, реализованных программой на C++, написанной в битовом коде, время выполнения будет увеличиваться в геометрической прогрессии, а это означает, что метод полного перебора нецелесообразен для практического использования. На самом деле эта проблема является одной из причин, по которой мы имеем дело с другими гипотетическими классами, такими как линейные предикторы, с которыми мы столкнемся в следующей главе, а не просто сосредотачиваемся на ограниченных классах.

\qquadВажно понимать, что только потому, что алгоритмический подход (такой как полный перебор) неэффективен, не означает, что не существует эффективных методов.ERMвыполнить. На самом деле мы покажем, что можно эффективно выполнятьERMпример правил

8.2.2 Осесимметричные прямоугольники

позволятьHn\mathcal H_nстатьRn\mathbb R_nКласс оси выровненного по центру прямоугольника, т.е.

H={h(a1,,an,b1,,bn):i,aibi}\mathcal H_=\{h_{(a1,\cdots,an,b1,\cdots,bn)}:\forall i,ai\leq bi\}

тем самым

h(a1,,an,b1,,bn)(x,y)={1if i,xiе[ai,bi]0otherwiseh_{(a1,\cdots,an,b1,\cdots,bn)}(x,y)= \begin{cases} 1&\text{if $\forall i,xi\in[ai,bi]$}\\ 0&\text{otherwise} \end{cases}

Эффективное обучение, когда оно достижимо

Рассмотрите возможность внедрения там, где это возможноERMправило. То есть мы получаем наборS=(x1,y1),,(xm,ym)S = (x_1, y_1), \ cdots, (x_m, y_m)например, чтобы существовал выровненный по оси прямоугольник,hеHnh\in\mathcal H_n,к этому концуh(xi)=yiч (х_я) = у_ядля всехii. Наша цель — найти такой выровненный по оси прямоугольник с нулевой ошибкой обучения, то есть прямоугольник, который согласуется со всеми метками выше S.

\qquadПозже мы докажем, что это можно сделать за времяO(nm)O(nm). В самом деле, для каждогоiе[n]i\in[n], настраиватьai=min{xi:(x,1)еS}a_i =min \{ xi:(x,1)\in S\}иbi=max{xi:(x,1)еS}b_i = max\{ xi:(x,1)\in S\}. Другими словами, мы положилиaia_iв видеSSПервый из примеров Zhongzhengiiминимальное значение координат,bib_iв видеSSПервый из примеров Zhongzhengiiмаксимальное значение координат. Легко проверить, что сгенерированные прямоугольники не имеют ошибок обучения, и найти каждыйaia_iиbib_iВремя работыO(m)O(m). Таким образом, общее время выполнения этого процесса равноO(nm)O(nm).

Неспособность эффективно учиться, не будучи агностиком

В агностике мы не принимаем определенные предположенияhhМетки всех примеров в обучающем наборе точно предсказаны. Поэтому наша цель найтиhh, тем самым сводя к минимумуyih(xi)y_i\not= h(x_i)количество примеров. Оказывается, что для многих распространенных гипотетических классов, включая рассматриваемый нами класс выровненных по оси прямоугольников, решение в независимой настройкеERMпроблема в томNPhardNP-hard(в большинстве случаев даже трудно найти некоторыеhеHh\in\mathcal H, погрешность которого не превышает некоторой постояннойc>1c>1умноженная на минимизацию эмпирического риска приH\mathcal Hсередина). То есть, еслиP=NPP = NP, иначе время работы без алгоритма равноmmиnnмногозначных в , гарантированно найдется для этих задачERMГипотеза (Бен-Дэвид, Айрон и Лонг, 2003).

\qquadС другой стороны, стоит отметить, что если мы зафиксируем конкретный гипотетический класс, например, выровненные по оси прямоугольники в некотором фиксированном измеренииnnТогда есть эффективные алгоритмы обучения для этого класса. Другими словами, существует успешный агностицизм.PACученик, в1/ϵ1/\epsilonи1/δ1/\deltaзапускать полиномы во времени (но их зависимость от размерности n не является полиномиальной).

Чтобы увидеть эту ситуацию, просмотрите наше предложение для достижимого случая.ERMвыполнение правил, из которых можно определить до2n2nВыровненный по оси прямоугольник в этом примере. Поэтому при указании размераmmКогда тренировочный набор2n2nВыполните полный поиск по всем подмножествам обучающего набора из 3 примеров и постройте прямоугольник из каждого такого подмножества. Затем мы можем выбрать прямоугольник с наименьшим количеством ошибок обучения. Этот процесс гарантирует нахождениеERMгипотеза, а время выполнения процесса равноmO(n)м ^ {О (п)}. Следовательно, еслиnnфиксировано, то время работы является полиномом от размера выборки. Это не противоречит приведенным выше результатам твердости, потому что там мы утверждаем, что еслиP=NPP=NPНе может быть алгоритма, которыйnnЗависимости также многогранны.

8.2.3 Логические соединения

Булевы союзы происходят отX={0,1}n\mathcal X=\{0, 1\}^nприбытьY={0,1}Y = \{0, 1\}Отображение , которое может быть представлено в виде таблицыxi1xik¬xj1¬xjrx_{i_1}\bigwedge\cdots\bigwedge x_{i_k}\bigwedge\neg x_{j_1}\bigwedge\cdots\bigwedge\neg x_{j_r}Пропозициональная формула , для некоторых показателейi1,,ik,j1,,jrе[n]i_1,\cdots,i_k,j_1,\cdots,j_r\in [n]Функция, определяемая такой пропозициональной формулой, есть

h(x)={1if xi1==xik=1иxj1==xjr=00otherwiseh(x)= \begin{cases} 1&\text{if $x_{i_1}=\cdots=x_{i_k}=1and x_{j_1}=\cdots=x_{j_r}=0$}\\ 0& \ текст{иначе} \end{case}

\qquadпозволятьHCn\mathcal H^n_CБыть классом всех булевых соединений над{0,1}n\{0, 1\}^n.HCn\mathcal H^n_Cразмер не более3n+13^n+1(Поскольку в формуле соединения каждый элемент x либо появляется, либо знак отрицания, либо вообще отсутствует, у нас также есть все отрицательные формулы). Поэтому используйтеERMизучение правилHCn\mathcal H^n_CСложность выборки не болееnlog(3/δ)/ϵnlog(3/\дельта)/\эпсилон.

Эффективное обучение, когда оно достижимо

Далее покажем, что можно решить за времяhCnh^n_CизERMпроблема. Идея состоит в том, чтобы определить, включив в гипотезу все буквальные комбинации, которые не противоречат ни одному положительному примеру отметки.ERMкомбинировать. позволятьv1,,vm+v_1,\cdots,v_{m^+}быть входным примеромSSВсе экземпляры положительной маркировки в . мы проходим вim+i\leq m^+По индукции определить набор предположений (или конъюнкций). Давайте будем комбинацией всех возможных литералов. которыйh0=x1¬x1x2xn¬xnh_0 = x_1\bigwedge \neg x1 \bigwedge x2\bigwedge\cdots\bigwedge x_n\bigwedge\neg x_n. Пожалуйста, обрати внимание,h0h_0присвоить метку 0X\mathcal Xвсех элементов. Получаем удалением из соединения всех неудовлетворенных литераловhi+1h_{i+1}. Алгоритм выводит гипотезуhm+h{m_+}. Пожалуйста, обрати внимание,hm+h_{m+}Наклейка Наклейка на лицевой стороне Все примеры маркировки на лицевой стороне в формате S. Кроме того, для каждогоim+i\leq m^+,hih_iявляется самой строгой обязывающей этикеткойv1,,viv_1,\cdots,v_iТеперь, поскольку мы рассматриваем обучение в достижимых условиях, существует обязывающая гипотеза,fеHCnf\in H^n_C, что то же самое, чтоSSВсе примеры в . так какhm+h_{m^+}является строжайшей привязкой, маркирующей положительно все положительные маркировкиSSчлен, любой тег экземпляра00Зависит отffтакже отмечен00Зависит отhm+h_{m^+}. следовательно,hm+h_{m^+}нет ошибок обучения(w.r.t.S)(W.R.T.S)Поэтому законныйERMгипотеза. Обратите внимание, что время работы этого алгоритма равноO(mn)О (мн).

Неспособность эффективно учиться, не будучи агностиком

Как и в случае прямоугольников, выровненных по оси, за исключениемP=NPP = NP, иначе время работы без алгоритма равноmmиnnмногозначные в , которые гарантированно будут найдены для логических классов привязки в случае, когда это невозможноERMгипотеза.

8.2.4 Изучение трехчленной ДНФ

Далее мы покажем, что небольшое обобщение класса логической конкатенации приводит, даже когда это достижимо, к решениюERMнеразрешимость проблемы. Рассмотрим формулу 3-периодной нормальной формы разделения (3 термина ДНФ) категория. Пространство экземпляраX={0,1}n\mathcal X = \{0, 1\}^n, каждая гипотеза задается в видеh(x)=A1(x)A2(x)A3(x)h(x)= A_1(x)\bigvee A_2(x)\bigvee A_3(x)Булева формула представления , где каждыйAi(x)A_i(x)является логической ассоциацией (как определено в предыдущем разделе). еслиA1(x)илиA2(x)илиA3(x)A_1(x) или A_2(x) или A_3(x)Выходная метка 1, выход h(x) равен 1. Если все три конкатенации выводят метку 0, тоh(x)=0ч (х) = 0.

\qquadпозволятьH3DNFn\mathcal H^n_{3DNF}В качестве гипотетического класса для всех таких формул cH3DNFn\mathcal H^n_{3DNF}по крайней мере, размер33n3^{3n}, поэтому используйтеERMизучение правилH3DNFn\mathcal H^n_{3DNF}Примерная сложность не более3nlog(3/δ)/ϵ3n log(3/\delta)/\epsilon.

\qquadОднако эта задача обучения сложна с вычислительной точки зрения. Было показано (см. (Pete and Valiant 1988, Kearns et al. 1994)), если толькоRP=NPRP = NP, без множественных временных алгоритмов правильно выучить серию3 термина ДНФпроблемы с обучением, где первоеnnРазмерность вопросаnn. Под «правильным» мы подразумеваем, что алгоритм должен выводить предположение, что3 термина ДНФ. В частности, посколькуERMH3DNFNERM_{\mathcal H^N_{3DNF}}вывод3 термина ДНФформула, это правильный ученик, поэтому ее трудно реализовать. Доказательство использует сокращение задачи графа с тремя цветами.PACучиться3 термина ДНФПроблема. Подробные техники на практике33приведены в. См. также (Кернс и Вазирани, 1994, раздел 1.4).

8.3 Эффективное обучение, но не с помощью надлежащего ERM

В предыдущем разделе мы видели, что это невозможно сделать эффективно.3DNF3-DNFшаблонныйH3DNFnH^n_{3 DNF}своего родаERMправило. В этом разделе мы покажем, что этот класс может быть изучен эффективно, но с использованиемERMучиться в больших классах.

Представлять самостоятельное обучение не сложно

Далее мы покажем, что можно эффективно учиться3 термина ДНФформула. Нет противоречия с результатами по сложности, упомянутыми в предыдущем разделе, поскольку теперь мы допускаем «репрезентативное независимое» обучение. То есть мы позволяем алгоритму обучения выводить гипотезу, которая не3 термина формула ДНФ. Основная идея состоит в том, чтобы3 термина формула ДНФИсходный класс гипотез заменяется более крупным классом гипотез, чтобы новый класс было легко изучить. Алгоритмы обучения могут возвращать гипотезы, не принадлежащие исходному классу гипотез: отсюда и название «независимое» обучение. Подчеркнем, что в большинстве случаев нас действительно интересует возвращение гипотез с хорошей предсказательной силой.

Сначала мы замечаем, что, поскольку\bigveeраспространяется в\bigwedge, каждый3 термина формула ДНФФормулу можно переписать как

A1A2A3=uеA1,vеA2,wеA3(uvw)A_1\bigvee A_2\bigvee A_3=\underset{u\in A_1,v\in A_2,w\in A_3}{\bigwedge}(u\bigvee v\bigvee w)

Далее давайте определимψ:{0,1}n{0,1}(2n)3\psi:\{0,1\}^n\rightarrow \{0,1\}^{(2n)^3}, так что для каждой тройкиu,v,wу, в, шсуществуетψ\psiВ области видимости есть переменная, которая указывает вамuvwu\bigvee v\bigvee wЭто правда или ложь. Поэтому для каждого более{0,1}n\{0, 1\}^nиз3 термина ДНФформула, существует более{0,1}(2n)3\{0,1\}^{(2n)^3}, с той же таблицей истинности. Поскольку мы предполагаем, что данные достижимы, мы можем решитьERMпроблема, ссылка на группу превышает{0,1}(2n)3/\{0,1\}^{(2n)^3}/Кроме того, примерная сложность изучения связанных классов в многомерных пространствах не превышаетn3log(1/δ)ϵn^3 log(1/\delta)\epsilon. Таким образом, общее время работы этого метода больше, чемnn.

\qquadИнтуитивно идея выглядит следующим образом. Мы начали с гипотетического урока, который было трудно усвоить. Мы переключаемся на другое представление, предполагая, что класс больше исходного, но имеет более сложную структуру, что позволяет более эффективноERMпоиск. В новой формулировке решитьERMПроблема проста.

屏幕截图 2021-09-24 172156.png

8.4 Трудность обучения*

Мы только что доказали, что реализацияERMHERM_\mathcal HРасчетная твердость не предполагает такогоH\mathcal HКлассы нельзя выучить. Как доказать, что проблема обучения неразрешима?

\qquadОдин из способов — полагаться на криптографические предположения. В некотором смысле криптография — это полная противоположность обучению. При обучении мы пытаемся обнаружить некоторые правила — основу примеров, которые мы видели, тогда как в криптографии цель состоит в том, чтобы гарантировать, что никто не сможет раскрыть какой-либо секрет, несмотря на то, что он может получить некоторую частичную информацию о нем. В рамках этой высокоуровневой интуиции результаты о криптографической безопасности некоторых систем трансформируются в результаты о необучаемости некоторых соответствующих задач. К сожалению, в настоящее время нет способа доказать, что протоколы шифрования невзламываемы. даже еслиPNPP\not =NPОбщепринятого предположения также недостаточно, чтобы доказать это (хотя оно может оказаться необходимым для большинства распространенных сценариев шифрования). Обычный способ доказать, что криптографический протокол безопасен, состоит в том, чтобы начать с некоторых криптографических предположений. Чем больше они используются в качестве основы для криптографии, тем больше мы уверены, что они действительно будут выполняться (или, по крайней мере, трудно найти алгоритмы, которые их опровергнут).

\qquadТеперь мы кратко опишем основную идею того, как сложность обучаемости выводится из криптографических предположений. Многие криптографические системы полагаются на предположение, что существует односторонняя функция. Грубо говоря, односторонняя функция — это функцияf:{0,1}n{0,1}nе: \{0, 1\}^n\стрелка вправо\{0, 1\}^n(Более формально, это последовательность функций, каждое измерениеnn) легко вычислить, но трудно инвертировать. Более формально,ffМногозначность может быть рассчитана по времени (nn), но для любого случайного многократного алгоритмаAAи каждое многозначноеp(.)p(.)рассчитать.

P[f(A(f(x)))=f(x)]<1p(n)\mathbb P[f(A(f(x)))=f(x)]<\frac{1}{p(n)}

в соответствии с{0,1}n\{0, 1\}^nравномерное распределение иAAСлучайность , принимает вероятность болееxxслучайный выбор.

\qquadодносторонняя функцияffназывается Trapdoor односторонним функциями, если для некоторых нескольких функцийpp, для каждогоnnСуществующая длинаp(n)\leq p(n)битовая строкаsns_n(называемый секретным ключом), поэтому существует несколько временных алгоритмов, которые используются для каждогоnnи каждыйxе{0,1}nх\в\{0, 1\}^п, для ввода(f(x),sn)(е (х), s_n)выводxxДругими словами, хотяffТрудно инвертировать, но как только люди получат доступ к своему секретному ключу, инвертироватьffстановится осуществимым. Эти функции параметризуются своими секретными ключами.

\qquadТеперь позвольтеFnF_nстать лазейкой в{0,1}n\{0, 1\}^nсемейства, эти функции могут быть вычислены некоторыми многократными алгоритмами времени. То есть мы фиксируем алгоритм, который дает секретный ключ (представляющийFnF_nфункция в ) и входной вектор, который вычисляет значение функции, соответствующей секретному ключу во входном векторе, за несколько квот. Рассмотрим задачу изучения соответствующего обратного класса,HFn={f1:fеFn}H^n_F =\{f^{-1}:f\in F_n\}. Поскольку к каждой функции в этом классе можно получить доступ с помощьюnnсекретный ключ полинома определенного размера вsns_nс ног на голову,HFnH^n_FКлассы могут быть параметризованы этими ключами, и их размер не превышает2p(n)2 ^ {р (п)}. Поэтому сложность его образцов кратна. Мы утверждаем, что в этом классе нет эффективных учеников. Если есть такой ученик,LL, то методом случайной выборки{0,1}n\{0, 1\}^nстроку с несколькими квотами и вычислитьffНа них мы можем сгенерировать отмеченную пару(f(x),x)(е (х), х), что должно быть достаточно для наших учащихся, чтобы понять(ϵ,δ)(\ эпсилон, \ дельта)приблизительныйf1f^{-1}(w.r.t.w.r.t.существуетffравномерное распределение в диапазоне), что нарушило быffоднонаправленное свойство.

\qquadБолее подробное рассмотрение, а также конкретный пример можно найти в (Кернс и Вазирани, 1994, глава 6). Используя сокращения, они также показывают, что классы функций, которые могут быть вычислены с помощью небольших логических схем, не могут быть изучены эффективно, даже если это достижимо.

8.5 Резюме

Время работы алгоритма обучения анализируется без того же имени как функция различных параметров задачи обучения, таких как размер класса гипотез, наша мера точности, наша мера достоверности или размер набора доменов. Мы продемонстрировали, что можно эффективно выполнятьERMслучае правил. Например, мы выводим решения для класса логической связи и класса прямоугольников, выровненных по осям, в предположении о реализуемости.ERMЭффективный алгоритм решения проблемы. Однако внедрить ERM для этих классов сложно, не будучи агностиком. Напомним, что со статистической точки зрения нет никакой разницы между реализуемым случаем и агностическим случаем (т. е. если и только если существует конечная размерность VC, в обоих случаях класс является образовательным). Напротив, как мы видим, разница огромна с вычислительной точки зрения. Мы также показываем другой пример,3 термина ДНФкласс, реализующийERMТрудный, даже когда достижимый, класс может быть эффективно изучен другим алгоритмом.

\qquadРеализовано в нескольких классах естественных гипотезERMЖесткость правил побудила к разработке альтернативных методов обучения, которые мы обсудим в следующей части этой книги.

8.6 Библиографическое описание

Valiant (1984) представил эффективныеPACИзучите модель, в которой требуется время работы алгоритма.1/ϵ,1/δ1/\эпсилон, 1/\дельтаПолином от и предполагаемый размер представления в классе. Подробное обсуждение и обширные библиографические примечания приведены у Kearns and Wazirani (1994).

8.7 Упражнение

1, пустьH\mathcal Hстановится интервальным классом на линии (формально эквивалентным размеруn=1n = 1выровненный по оси прямоугольник в ). рекомендуемая реализацияERMHERM_\mathcal Hправила обучения (в агностическом случае) с заданным набором размеровmmтренировочный набор, бег на времяO(m2)О (м ^ 2).

2, пустьH1,H2,\mathcal H_1,\mathcal H_2,\cdotsПредположим, что алгоритм обучения реализован там, где это достижимо.ERMправила, поэтому каждыйHn\mathcal H_nВыходная гипотеза алгоритма класса зависит только отO(n)На)Пример. Кроме того, предполагается, что этиO(n)На)Пример (времяO(n)На)Такие допущения рассчитываются, и эмпирический риск для каждого такого допущения может быть сделан вовремя.O(mn)О (мн)оценивать. Например, еслиHn\mathcal H_nдаRn\mathbb R^nВыровненный по оси класс среднего прямоугольника, мы находим, что самое большее2n2nДостижимый случай, определяемый примером, может быть найденERMгипотеза. Докажите, что в этом случае можно найти невозможноеHn\mathcal H_nизERMгипотезаO(mnmO(n))О (мнм ^ {О (п)})

3. В этом упражнении мы предлагаем несколько классов и находимERMКлассификаторы сложны в вычислительном отношении. Сначала введем класс n-мерных полупространств HSn для области X = Rn. Это класс всех функций вида hw,b(x) = symbol (hw,xi = b), где w,x ∈ Rn, hw,xi — их внутренние произведения, b ∈ R. Подробное описание см. в главе 9.