Это 15-й день моего участия в августовском испытании обновлений. Узнайте подробности события:Испытание августовского обновления

Подробный вариационный автоэнкодер - VAE

Полное название VAE (Variational Auto-Encoder) — вариационный автокодер. является генеративной моделью.

Чтобы понять VAE, давайте сначала кратко разберемся с автоэнкодером, о котором часто говорятAuto-Encoder.

Auto-EncoderВключая энкодер (Encoder) и декодер (Decoder). Его структура выглядит следующим образом:

Auto-Encoder

Средний слой кода также называется встраиванием.

Цель ВАЭ

Сначала предположим распределение скрытой переменной Z и построим модель от Z до целевых данных X, то есть построим $X=g(Z)$ , так что изученные целевые данные близки к распределению вероятностей реальных данных. По сути, в соответствии с GAN, GAN также изучает распределение вероятностей.

Структура модели

Структурная схема VAE (картинка взята из блога г-на Су, захваченного и удаленного) выглядит следующим образом:

VAE结构

VAE для каждого образца $X_k$ Чтобы соответствовать распределению Гаусса, скрытая переменная Z выбирается из распределения Гаусса. Для K выборок предполагается, что гауссово распределение каждой выборки равно $\mathcal N(\mu_k,\sigma_k^2)$ , вопрос в том, как подогнать эти дистрибутивы.

VAE строит две нейронные сети, чтобы соответствовать среднему значению и дисперсии. который $\mu_k=f_1(X_k),log\sigma_k^2=f_2(X_k)$ , примерка $log\sigma_k^2$ Причина в том, что нет необходимости добавлять функцию активации.

Кроме того, VAE максимально приближает каждое распределение Гаусса к стандартному распределению Гаусса. $\mathcal N(0,1)$ . Потеря ошибки в этом процессе подгонки рассчитывается с использованием расхождения KL.

Подробный вывод приведен ниже.

Принцип вывода

По сути, VAE очень похожа на GMM (модель гауссовой смеси), которая также является генеративной моделью, и фактически VAE можно рассматривать как версию GMM с распределенным представлением. Мы знаем, что GMM — это скрытая переменная с конечным числом распределений Гаусса. $z$ , а VAE можно рассматривать как бесконечное количество скрытых переменных $z$ Смесь, обратите внимание, VAE в $z$ Может быть гауссовым или негауссовым. Но чаще используется гауссова.

необработанные данные выборки $x$ Распределение вероятностей:

P(x)=\int_Z P(x)P(x|z)dz

мы предполагаем, что $z$ Соблюдайте стандартное распределение Гаусса, предварительное распределение $P(x|z)$ является гауссовым, т.е. $x|z \sim N(\mu(z),\sigma(z))$ . $\ мю (г), \ сигма (г)$ две функции соответственно $z$ Среднее значение и дисперсия соответствующего распределения Гаусса (как показано ниже), затем $P(x)$ Это совокупность всех распределений Гаусса в области интегралов.

在这里插入图片描述

так как $P(z)$ известен, $P(x|z)$ неизвестно, поэтому решение проблемы на самом деле требует $\mu,\sigma$ эти две функции. Наша первоначальная цель - решить $P(x)$ , и мы надеемся $P(x)$ Чем больше, тем лучше, что эквивалентно решению для $x$ Максимальное логарифмическое правдоподобие:

L=\sum_x logP(x)

и $logP(x)$ можно преобразовать в:

\begin{aligned} logP(x)&=\int_z q(z|x)logP(x)dz \\ &=\int_z q(z|x)log(\dfrac{P(z,x)}{P(z|x)})dz \\ &=\int_z q(z|x)log(\dfrac{P(z,x)}{q(z|x)}\dfrac{q(z|x)}{P(z|x)})dz\\ &=\int_z q(z|x)log(\dfrac{P(z,x)}{q(z|x)})dz+ \int_z q(z|x)log(\dfrac{q(z|x)}{P(z|x)})dz\\ &=\int_z q(z|x)log(\dfrac{P(x|z)P(z)}{q(z|x)})dz + \int_z q(z|x)log(\dfrac{q(z|x)}{P(z|x)})dz \end{aligned}

Здесь мы находим, что второй элемент $\int_z q(z|x)log(\dfrac{q(z|x)}{P(z|x)})dz$ На самом деле это $q$ и $P$ KL-расхождение , т.е. $KL(q(z|x)\;||\;P(z|x))$ , так как расхождение KL больше или равно 0,

Таким образом, приведенную выше формулу можно записать в следующем виде:

logP(x)\geq \int_z q(z|x)log(\dfrac{P(x|z)P(z)}{q(z|x)})dz

Таким образом, мы находим нижнюю границу, которая является правым членом выражения, а именно

L_b=\int_z q(z|x)log(\dfrac{P(x|z)P(z)}{q(z|x)})dz

Исходная формула также может быть выражена как:

logP(x)=L_b+KL(q(z|x)\;||\;P(z|x))

чтобы $logP(x)$ Чем больше значение, наша цель — максимизировать его нижнюю границу.

Нажали сюда, может возникнуть вопрос: а зачем вводить $q(z|x)$ (здесь $q(z|x)$ может быть любой дистрибутив)?

На самом деле, поскольку апостериорное распределение $P(z|x)$ Его трудно получить (неразрешимый), поэтому я использую его $q(z|x)$ для аппроксимации этого апостериорного распределения. В процессе оптимизации мы обнаружили, что сначала $q(z|x)$ и $logP(x)$ совершенно не имеет значения, $logP(x)$ просто следуйте $P(z|x)$ связанные, регулируемые $q(z|x)$ не повлияет кажется, что $logP(x)$ из. Итак, когда мы исправим $P(x|z)$ время, настроить $q(z|x)$ Максимизируйте нижнюю границу $L_b$ , KL меньше. когда $q(z|x)$ с аппроксимацией апостериорного распределения $P(z|x)$ Когда расхождение KL стремится к 0, $logP(x)$ как $L_b$ эквивалентность. так максимизировать $logP(x)$ эквивалентно максимизации $L_b$ .

在这里插入图片描述

обзор $L_b$ ,

\begin{aligned} L_b&=\int_z q(z|x)log(\dfrac{P(x|z)P(z)}{q(z|x)})dz \\ &=\int_z q(z|x)log(\dfrac{P(z)}{q(z|x)})dz+\int_z q(z|x)logP(x|z)dz \\ &=-KL(q(z|x)\;||\;P(z)) + \int_z q(z|x)logP(x|z)dz \\ &=-KL(q(z|x)\;||\;P(z)) + E_{q(z|x)}[log(P(x|z))] \end{aligned}

Очевидно, максимизировать $L_b$ эквивалентно минимизации $KL(q(z|x)\;||\;P(z))$ и максимизировать $E_{q(z|x)}[log(P(x|z))]$ .

Первый член, минимизирующий расходимость KL. Мы предполагали ранее $P(z)$ подчиняется стандартному распределению Гаусса, и $q(z|x)$ подчиняется распределению Гаусса $\mathcal N(\mu,\sigma^2)$ , поэтому мы можем получить:

\begin{align} KL(q(z|x)\;||\;P(z))=KL(\mathcal N(\mu,\sigma^2)\;||\;\mathcal N(0 , 1)) = & \ int \ dfrac {1} {\ sqrt {2 \ pi \ sigma ^ 2}} e ^ {\ frac {- (x- \ mu) ^ 2} {2 \ sigma ^ 2}} \left( log\dfrac {e ^ {\ frac {- (x- \ mu) ^ 2} {2 \ sigma ^ 2}}/\ sqrt {2 \ pi \ sigma ^ 2}} { e ^ {\ frac {-x^2}{2}}/\sqrt{2\pi} } \right)dx \\&...\text{Упростить до} \\=&\dfrac{1}{2}\dfrac { 1}{\sqrt{2\pi\sigma^2}}\int e^{\frac{-(x-\mu)^2}{2\sigma^2}} \left(-log\sigma^ 2 +x^2-\dfrac{(x-\mu)^2}{\sigma^2} \right)dx \\=&\dfrac{1}{2}\int \dfrac{1}{\sqrt { 2\pi\sigma^2}} e^{\frac{-(x-\mu)^2}{2\sigma^2}} \left(-log\sigma^2 +x^2-\dfrac { (x-\mu)^2}{\sigma^2} \right)dx \end{выровнено}

Чтобы дополнительно решить интеграл в приведенной выше формуле, $\dfrac{1}{\sqrt{2\pi\sigma^2}}e^{\frac{-(x-\mu)^2}{2\sigma^2}}$ В самом деле, плотность вероятности $f(x)$ , а интеграл функции плотности вероятности равен 1, поэтому первый член интеграла равен $-log\sigma^2$ , и поскольку второй момент гауссовского распределения равен $E(X^2)=\int x^2f(x)dx=\mu^2+\sigma^2$ , что в точности соответствует второму члену интеграла. По определению дисперсии известно, что $\sigma=\int (x-\mu)dx$ , поэтому третий член интеграла равен $-1$ .

Окончательный упрощенный результат выглядит следующим образом:

KL(q(z|x)\;||\;P(z))=KL(\mathcal N(\mu,\sigma^2)\;||\;\mathcal N(0,1))=\dfrac{1}{2}(-log\sigma^2+\mu^2+\sigma^2-1)

Второй срок, максимизация ожиданий. То есть дано $q(z|x)$ (выход энкодера) $P(x|z)$ (выход декодера) как можно выше. В частности, первым шагом является использование нейронной сети кодировщика для вычисления среднего значения и дисперсии, а также выборки из них. $z$ , этот процесс соответствует $q(z|x)$ ; Второй шаг — использовать вычисление NN декодера $z$ Средняя дисперсия , пусть среднее (или также рассмотрим дисперсию) ближе $x$ , затем производит $x$ шанс $logP(x|z)$ Чем больше значение, тем больше соответствует максимизация в формуле $logP(x|z)$ эта часть.

在这里插入图片描述

Теперь вывод завершен.

Трюк с повторным параметром

Наконец, когда модель реализована, есть трюк с перепараметрированием, то есть мы хотим получить данные из распределения Гаусса. $\mathcal N(\mu,\sigma^2)$ При выборке Z это фактически эквивалентно $\mathcal N(0,1)$ образец один $\epsilon$ , а затем вычислить $Z=\mu+\epsilon\times\sigma$ . Причина этого в том, что операция выборки неуправляема, а результат выборки управляем. $Z=\mu+\epsilon\times\sigma$ Это может участвовать в градиентном спуске, и модель может быть обучена.

Ссылаться на

Су Цзяньлинь: Вариационные автоэнкодеры (1): Оказывается, это так.
Г-н Ли Хунъи Машинное обучение (2017, осень, Тайваньский национальный университет), китайский язык