Deep Learning Bayesian, интенсивный 6-дневный ускоренный курс (видео и PPT)

Выбрано из GitHub, Исследовательской группы байесовских методов, организованной Heart of the Machine.

На летнем курсе Deep|Bayes преподаватели обсудят, как байесовские методы можно сочетать с глубоким обучением для достижения лучших результатов в приложениях машинного обучения. Недавние исследования показали, что использование байесовских методов может принести много преимуществ. Студенты изучат методы и приемы, которые важны для понимания текущих исследований в области машинного обучения. Они также оценят связь между байесовскими методами и обучением с подкреплением, изучением современных методов стохастической оптимизации и методов регуляризации для нейронных сетей. После курса инструктор также подготовил практическую часть.

адрес проекта:GitHub.com/Baye — это группа/…
Адрес видео:woohoo.YouTube.com/playlist?Ли…
Адрес ППТ:drive.Google.com/drive/Фландрия…

учитель

Большинство лекторов и ассистентов преподавателей являются членами исследовательской группы байесовских методов и исследователями из ведущих мировых исследовательских центров. Многие лекторы опубликовали статьи на ведущих международных конференциях по машинному обучению, таких как NIPS, ICML, ICCV, CVPR, ICLR, AISTATS и т. д. Исследовательская группа байесовских методов разработала ряд университетских курсов, включая байесовские методы, глубокое обучение, оптимизацию и вероятностные графические модели, и имеет большой опыт преподавания.

ученик

Эта летняя программа предназначена для:

Студенты бакалавриата (желательно прошедшие не менее двух лет курсовой работы в университете) и студенты магистратуры с сильным математическим образованием и достаточными знаниями в области машинного обучения, включая глубокое обучение.
Исследователи и отраслевые эксперты в области машинного обучения или смежных областях, которые хотят расширить свои знания и навыки.

Необходимые условия для изучения этого курса

Прочная основа машинного обучения и знакомство с глубоким обучением.
Математика: Знание линейной алгебры и теории вероятностей (очень важно).
Программирование: Python, PyTorch и NumPy.
Английский язык используется в Deep|Bayes Summer 2018, поэтому студенты должны быть знакомы с техническим английским языком.

Чему я могу научиться в Deep|Bayes?

Почему байесовские методы так полезны (в машинном обучении и повседневной жизни)? Что такое случайность?
модель со скрытой переменной. Как научить модель распознавать закономерности, которые не были известны до обучения?
Масштабируемые вероятностные модели. Почему полезно преобразовать задачу вероятностного вывода в задачу оптимизации?
Связь между обучением с подкреплением и байесовскими методами. Как обучить случайный вычислительный граф?
Тонкая настройка скорости автоматического отсева. Нейронные сети переобучаются? (Сделаю)
Случайная оптимизация. Как я могу оптимизировать функцию быстрее, чем вычисление значения функции в точке?

Цель этого курса — показать, что использование байесовских методов в глубоком обучении может расширить диапазон его приложений и повысить производительность. Хотя в машинном обучении существует множество различных постановок задач, вероятностный вывод с помощью байесовских сетей может решить их аналогичным образом. Вы сердце это?

Основное содержание курса

Весь курс охватывает все аспекты байесовского обучения, от самых основных байесовских принципов до более сложных вариационных выводов и методов Монте-Карло с цепями Маркова. Список тем для всего курса показан ниже, и Heart of the Machine кратко представит часть содержания курса.

первый день:

Введение в байесовские методы
Байесовский вывод
Модели со скрытыми переменными и алгоритмы ЭМ
ЭМ-алгоритм

На следующий день:

Введение в стохастическую оптимизацию
Масштабируемые байесовские методы
Вариационный автоэнкодер
скрытая переменная Дирихле

День 3:

Расширенные методы вариационного вывода
Обучение с подкреплением с точки зрения вариационного вывода
обучение с подкреплением
Распределенное обучение с подкреплением

День 4:

генеративная модель
состязательное обучение
Советы по расширенной репараметризации

День 5:

Гауссовский процесс
Байесовская оптимизация
Глубокий гауссовский процесс
Цепь Маркова Метод Монте-Карло
Метод стохастической цепи Маркова Монте-Карло

День 6:

Байесовские нейронные сети и вариационное отсев
Разреженные вариационные сети отсева и дисперсии
информационное узкое место

Весь курс занимает шесть дней, и количество курсов каждый день очень велико, поэтому сердце машины лишь кратко знакомит с самым основным байесовским методом и моделью скрытых переменных, основной идеей которых является байесовский метод. Весь курс. Модель скрытых переменных является основой многих передовых методов, таких как генеративные модели.

Введение в байесовские методы

Сначала мы представим теорему Байеса на примере «слепого, касающегося слона», а затем кратко опишем разницу между частотной и байесовской школами.

1 Теорема Байеса:

Во-первых, основная форма теоремы Байеса такова.

то есть апостериорная = вероятность x предыдущая/доказательство

Формальный вид

Теперь давайте обсудим задачу «слепой трогает слона».

Группа «слепых» трогала слона, пытаясь угадать, к чему они прикасаются, но ни один из них не угадал правильно. В неопределенном мире именно так мы понимаем мир, используя теорию вероятностей.

Для простоты упростим задачу: группа «слепых» прикасается к слону и, зная, что это слон, хотят угадать вес слона, основываясь на том, к чему они прикасаются.

Как байесовский подход решает эту проблему?

Мы предполагаем, что эти слепые люди обмениваются наблюдениями друг с другом и разделяют некоторый здравый смысл, который является первоначальным предположением о весе слона:

Тогда они могут сделать это:

Наблюдение первого человека состоит в том, чтобы коснуться хвоста и длины хвоста y1, а затем повторно угадать вес слона;

Второй человек принимает догадку первого человека как априорную, и результатом наблюдения является то, что он касается живота и области y2 живота, а затем снова угадывает вес слона;

Третий человек то же, по догадке второго продолжайте наблюдать и угадывать...

В этом процессе их здравый смысл в начале, вес догадки слона — это априорное P(x), результат наблюдения первого человека — вероятность P(y1|x), а возможность появления самого наблюдения — это является свидетельством P(y1), и, наконец, мы получаем P(x|y1), который представляет собой вероятность (распределение вероятностей) веса слона как x на основе наблюдения y:

Исходя из этого, второй человек сможет получить P(x|y1,y2):

Третий человек получит P(x|y1,y2,y3)…

Ну а по мере увеличения отчета наблюдения вес слона становится все менее и менее скрытым (пик становится острее):

Разумеется, в ходе курса преподаватель будет шаг за шагом подробно объяснять концепции, в том числе взаимосвязь между условным распределением, совместным распределением и предельным распределением, а также знакомить с правилами произведения и правилами сумм. более тщательно.

2 Связь и различие между частотной школой и байесовской школой:

Frequentist не предполагает каких-либо предварительных знаний, не обращается к прошлому опыту и делает только вероятностные выводы на основе текущих данных. Байесовская школа предполагает наличие априорных знаний (угадывание веса слона), а затем использует выборку для постепенного изменения априорных знаний и приближения к реальным знаниям. Но на самом деле, когда количество данных приближается к бесконечности, результаты, полученные частотной школой и байесовской школой, совпадают, т. е. частотный метод является пределом байесовского метода.

Выше приведено общее содержание базовой теоретической части байесовского метода, а также различия между генерирующей и дискриминационной моделями, байесовским процессом обучения и обсуждением преимуществ байесовского метода.

модель со скрытой переменной

Основная идея байесовских методов, теорема Байеса, была кратко представлена ранее, и в этой главе Дмитрий Ветров сосредоточится на моделях со скрытыми переменными. Модель скрытых переменных является основой многих сложных методов.Например, в генеративной модели вариационного автоэнкодера мы надеемся сжать изображение в ряд скрытых переменных, которые представляют семантическую информацию высокого уровня изображения, такую как в качестве основной части изображения. Наклон, цвет и положение и т. д.

В этой части мы обсудим интуитивные концепции моделей скрытых переменных, дивергенции КЛ, смесевых распределений и вариационных нижних границ на основе того, что представил Дмитрий Ветров.

Как упоминалось выше, самым большим преимуществом VAE является то, что короткий вектор промежуточного кодирования представляет некоторые семантические признаки изображения, но, поскольку мы не можем знать, какие признаки изображения специфичны, мы можем назвать этот короткий вектор скрытой переменной. Интуитивно очень сложно сгенерировать изображение полностью попиксельно, потому что нам нужно учитывать очень много возможностей. Гораздо проще сгенерировать изображение по этому чертежу, если вы сначала определитесь с характеристиками изображения, которое хотите сгенерировать.

VAE делает именно это, сначала учась правильно сжимать изображение в набор скрытых переменных, а затем учась генерировать изображение из скрытых переменных. Когда модель закончит обучение, при любом наборе скрытых переменных модель попытается сгенерировать правильное изображение. Это интуитивная концепция модели скрытых переменных.

Дивергенция KL обычно используется как мера расстояния между двумя распределениями и часто используется для создания функции потерь модели. Ниже показано интуитивное понимание дивергенции KL, то есть чем больше совпадают распределение Q(z) и распределение P(Z), тем меньше дивергенция KL и тем ближе расстояние между двумя распределениями.

В случае дискретных переменных расхождение KL измеряется, когда мы отправляем сообщение, содержащее символы, созданные распределением вероятностей P, с использованием кодирования, предназначенного для минимизации длины сообщения, созданного распределением вероятностей Q. Количество требуемой дополнительной информации. Дивергенция KL обладает многими полезными свойствами, наиболее важным из которых является то, что она неотрицательна. Дивергенция KL равна 0 тогда и только тогда, когда P и Q являются одним и тем же распределением в случае дискретных переменных или «почти везде» в случае непрерывных переменных.

Затем Дмитрий Ветров показал случай моделирования скрытых переменных.Если у нас есть несколько выборок, которые подчиняются неизвестному распределению Гаусса, то мы можем использовать такие методы, как оценка максимального правдоподобия или точечная оценка, чтобы вывести среднее значение и дисперсию неизвестного распределения.

А теперь если предположить, что у нас есть набор выборок из разных распределений Гаусса, и нам нужно оценить параметры этих распределений Гаусса. Эта проблема кажется неразрешимой, но ее легче решить, если мы знаем, какие выборки взяты из какого конкретного распределения Гаусса.

Но если мы не знаем, из какого распределения Гаусса взяты образцы, мы можем использовать только модели со скрытыми переменными. Его основная идея состоит в том, чтобы сначала оценить, к какому распределению Гаусса принадлежат эти выборки, то есть сопоставить выборки со скрытыми переменными «среднее» и «дисперсия». Затем завершается моделирование трех распределений Гаусса на основе скрытых переменных.

Следуя этой идее, мы можем затем построить смешанную модель Гаусса и надеяться закодировать данные как скрытую переменную Z, а затем завершить моделирование на основе этой скрытой переменной. Как показано ниже, когда мы не знаем скрытую переменную Z, максимизация вероятности выборки X из Z может вывести максимальную нижнюю границу вариации, которая также является основным выражением вариационного автоэнкодера.

В вариационном автоэнкодере максимизация вариационной нижней границы (ELBO) может использоваться в качестве цели оптимизации всей модели или функции потерь всей модели. В приведенном выше случае максимизация этой вариационной нижней границы означает нахождение некоторых распределений Гаусса, и каждая выборка, скорее всего, принадлежит распределению Гаусса.

Весь курс вводит много теоретических знаний, особенно о различных теориях байесовской школы. Если читатели более уверенно разбираются в математике, они могут подробно изучить эту серию руководств.