Обобщенная байесовская перспективная теория обучения PAC-Bayes и глубокое обучение

искусственный интеллект алгоритм задняя часть

Теория обучения — Байесовский взгляд на обобщение

Через призму PAC-Байеса

Фото:Christiaan HuynenonUnsplash

Теория обучения — это исследование разрыва между ошибкой обучения и ошибкой обобщения (также известного как разрыв обобщения), что дает нам гарантию производительности обученного ученика на новых данных. За прошедшие годы было проделано много большой работы, чтобы устранить пробел в обобщении, включая, помимо прочего, размерность VC, сложность Радемахера, стабильность алгоритма. В то время как эти работы дают четкие границы разрыва обобщения в недостаточно параметризованных ситуациях (когда у нас больше данных, чем количество свободных параметров для изучения), когда мы обращаемся к режимам интерполяции (в этом случае у нас больше свободных параметров, чем данных, мы может идеально интерполировать данные), эти границы становятся полыми - по мере того, как модель (нейронная сеть) становится все более и более сложной, ошибка обобщения не растет, как эти границы, а показывает тенденцию к снижению. Хотя это загадочное поведение обобщения, также известное как двойной спуск, привело к успеху моделей нейронных сетей в многочисленных задачах, поиск теоретического объяснения еще не закончен.

Байесовский взгляд на обобщение — эмпирические исследования

В недавней статье «Байесовское глубокое обучение и вероятностная перспектива обобщения» авторы показывают, что можно полностью смягчить явление двойного сброса, которое предполагает, что ошибка обобщения класса становится относительно гибкости модели (максимальной емкости) Монотонный drop, даже для поврежденных наборов данных. Ключом к достижению этого, грубо говоря, является байесовская модель маргинализации, которая лучше аппроксимирует индуктивное смещение сопоставления данных (я не буду вдаваться в подробности, изложенные в статье, но можно обратиться к следующим страницам за кратким и исчерпывающим описанием). обзор статьи введение: https://Jori Sabah Press.Where/2021/03/02/Introduction-to-Bayesian-deep-learning.HTML). Эксперименты с этими концепциями действительно дали потрясающие результаты, дав нам убедительные доказательства в пользу байесовского подхода. Однако помимо эмпирических экспериментов теоретической поддержки по-прежнему не хватает. В этом посте я представлю теоретическую связь между байесовской маргинализацией и обобщением через призму концепции PAC-Bayes.

От ELBO до границы PAC-Bayes

Во-первых, позвольте мне наметить общую дорожную карту, чтобы обобщить шаги к подключению.

  1. Проверьте нижний предел доказательности (ELBO
  2. Введение метрологического вариационного неравенства как обобщения ELBO
  3. Выведите ограничения PAC-Байеса
  4. построить соединение

нижний предел доказательности

Для тех, кто знаком с байесовской структурой, хорошо известно, что логарифмическое свидетельство может иметь следующую нижнюю границу:

где q — вероятностная модель, q(x|θ) — функция правдоподобия, q(θ) — априорное распределение θ, а q(x)=∫q(x|θ)-q(θ)-dθ — это доказательство / крайняя вероятность. Это неравенство справедливо для любого распределения r по θ, потому что r не имеет большей поддержки, чем q. Правая сторона этого неравенства представляет собой так называемый ELBO, который представляет собой жесткое ограничение, согласно которому равенство может быть достигнуто, когда r (θ) равно апостериорному q (θ | x). Фактически, разница между логарифмическими данными и ELBO заключается в расхождении KL от q(θ|x) до r(θ), поэтому логарифмические данные можно разложить следующим образом.

Изменения в неравенстве мер и весов

Поскольку свидетельство удовлетворяет q(x)=∫q(x|θ)-q(θ)-dθ, это математическое ожидание q(x|θ) относительно q(θ). Следовательно, это неравенство можно переписать в виде

На самом деле это неравенство выполняется не только для логарифмических функций правдоподобия, но и для любой действительнозначной функции, а именно: .

Как говорится в подзаголовке, это неравенство изменения измерения. Подобно ELBO, эта нижняя граница также точна, и мы можем добиться равенства с помощью апостериорного метода Гиббса.

Фактически, разница между ними является именно опыт R Gibbs после расхождения KL, потому что это свидетельствует о разложении.

Ограничения PAC-Байеса

Теперь мы можем без труда вывести ограничения PAC-Байеса. Хитрость здесь заключается в том, чтобы установить _j_ с функцией, связанной с ошибкой обучения и ошибкой обобщения. Специальным вариантом является

где D представляет неизвестное распределение генерации данных, S представляет собой случайную выборку iid в D, R представляет собой риск, оцененный для некоторой потери L, а L представляет S или D для ошибки обучения и ошибки обобщения соответственно. Что касается λ, то это свободный параметр, как обратный температуре, который определяет некий компромисс между соответствием и сложностью, как мы увидим позже. Подставьте этот _j_ и переставьте термины, и мы получим

Применяя неравенство Маркова к части в пределах логарифма последнего члена в RHS, мы можем заменить его его ожидаемым значением (относительно S), так что случайность, вызванная S, будет удалена, и общая форма PAC-байесовские ограничения.

Обобщенная байесовская точка зрения — теоретическая точка зрения

Роль маргинализации

Давайте теперь посмотрим, как связать байесовскую концепцию с методом PAC-Bayes. Выбирая отрицательную логарифмическую функцию правдоподобия в качестве потерь для оценки риска и устанавливая λ как количество выборок, первые два члена точно складываются, чтобы получить отрицательный ELBO с дополнительной оценкой на 1 больше, чем n.

обобщение = поддержка + индуктивное смещение

В вышеупомянутой статье «Байесовское глубокое обучение и обобщение с вероятностной точки зрения» авторы утверждают, что обобщение модели включает в себя два аспекта:Служба поддержки, то есть диапазон распределения данных, который модель может разумно аппроксимировать, ииндуктивное смещение, то есть насколько хорошо модель вписывается в различные распределения данных. С точки зрения полученных ограничений PAC-Байеса, мы придаем строго математическое значение этому аргументу.

  1. Для неподдерживаемых распределений данных, таких как применение линейной модели к набору данных изображения, у нас может быть небольшой разрыв в обобщении, но мы никогда не сможем достичь удовлетворительного обобщения, потому что нет конфигурации каких-либо весов во всем пространстве, что является хорошим приближением к истине. , что приводит к небольшим ELBO даже при точной байесовской маргинализации оптимизированного априорного q(θ).
  2. При несогласованных индуктивных смещениях неприводимый член, третий в правой части неравенства, никогда не бывает малым (при фиксированной модели и распределении данных единственный способ уменьшить его — собрать больше данных).

Суммировать

С точки зрения PAC-Байеса лучшее приближение байесовской маргинализации действительно превосходит отдельное решение любого метода оптимизации с точки зрения границ обобщения. Для более жестких ограничений существует много активных областей исследований: геометрическое глубокое обучение изучает эффективность различных архитектур на разных данных; дифференциальная конфиденциальность стремится найти «зависимые от распределения данных», но «независимые от данных» априорные значения q(θ) и т. д. Мы постепенно демистифицируем обучение, и хотя впереди еще долгий путь, это действительно захватывающе.