Мотивация, принцип и недостатки ГАН

Эта статья перенесена из личного паблика: Программисты и машинное обучение

Мотивация для GAN

Чтобы понять GAN, начните с названия:Генеративно-состязательная сеть Генеративно-состязательная сеть

Генерация: описывает проблему, которую может решить GAN, создает изображение или абзац и т. д.
Adversarial: описывает, как работают сети GAN.

**Два основных компонента GAN: Генератор, Дискриминатор. ** Цель генератора — попытаться сгенерировать реальные изображения, чтобы обмануть дискриминатор, а цель дискриминатора — попытаться отличить изображения, сгенерированные генератором, от реальных изображений, что представляет собой процесс двухклассовой классификации.

Отношения между ними отражают враждебные отношения в GAN. Например, ** Это похоже на то, когда мы отправляем статью, мы Генератор, а рецензент — Дискриминатор. ** Статья похожа на модель, которую мы хотим изучить, каждый раз, когда мы отправляем рукопись, она эквивалентна выходу Generator, а рецензент действует как дискриминатор, оценивая нашу работу. У рецензентов есть свои критерии оценки, поэтому каждый раз, когда мы вносим изменения в статью как генератор, мы приближаемся к стандартам рецензента После нескольких раундов рецензирования и доработки, пока рецензент не будет удовлетворен. Обратите внимание, что во время этого процесса, когда мы редактируем статью, рецензент больше не может рецензировать нашу статью; пока рецензент рецензирует, мы не можем одновременно редактировать статью.

Теперь мы опишем основной поток GAN. Генератор( $G$ ),Discriminator( $D$ )

инициализация $G$ параметры $\theta_g$ , $D$ параметры $\theta_d$
Повторить:
- Собрать в набор данных $m$ образцы (вектор) $\{ {x^1},{x^2}, \ldots {x^m}\}$
- вкакая-то раздача(как нормальное распределение) $m$ сэмплы шума $\{ {z^1},{z^2}, \ldots {z^m}\}$
- проходить $G$ Генерация данных $\{ {{\tilde x}^1},{{\tilde x}^2}, \ldots {{\tilde x}^m}\},\ {\tilde x}^i=G(z^i)$
- проходитьмаксимизироватьСледующие обновления целевой функции $D$ параметры $\theta_d$ ,В настоящее время $G$ Параметры фиксированы:
- $\tilde V = \frac{1}{m}\sum\limits_{i = 1}^m {\log D({x^i}) + } \frac{1}{m}\sum\limits_{i = 1}^m {\log (1 - D({{\tilde x}^i}))}$
- ${\theta _d} \leftarrow {\theta _d} + \eta \nabla \tilde V({\theta _d})$
- **Первый элемент целевой функции: **Прирост $D$ Оценка образцов в наборе данных должна установить точку отсчета в сознании рецензентов.
  
  **Второй член целевой функции: **уменьшить $D$ правильно $G$ Оценка сгенерированного образца, то есть рецензент продолжает вносить предложения (находить недостатки) в нашей рукописи.
- вкакая-то раздача(как нормальное распределение) $m$ сэмплы шума $\{ {z^1},{z^2}, \ldots {z^m}\}$ , выборка здесь не обязательно должна быть такой же, как предыдущая выборка.
- Обновление путем максимизации следующей целевой функции $G$ параметры $\theta_d$ ,В настоящее время $D$ Параметры фиксированы:
  $\tilde V = \frac{1}{m}\sum\limits_{i = 1}^m {\log D(G({z^i}))}$ ${\theta _g} \leftarrow {\theta _g} + \eta \nabla \tilde V({\theta _g})$
  
  Целевая функция: Увеличить оценку D на выборках, сгенерированных G, то есть мы должны усердно работать, чтобы пересмотреть нашу статью, чтобы сделать рецензентов более удовлетворенными.

Почему $G$ Вы не можете учиться самостоятельно, вместо того, чтобы полагаться на это $D$ суждение?

Мы предполагаем, что эта схема осуществима, и надеемся, $G$ Учимся выводить изображение числа 8 средствами $G$ Необходимо правильно вывести изображение числа 8 для любого входа. Однако перед лицом такого случайного входного вектора $G$ Трудно контролировать свой результат. Поэтому мы также надеемся, что все изображения числа 8 будут иметь схожие векторные представления. Для этого можно узнать через другую сеть и, наконец, надеяться $G$ Полученное изображение может быть достаточно похоже на оригинал. который:

На самом деле это $Decoder$ как $GAN$ середина $Generator$ .Структура на приведенном выше рисунке (взято из «Глубокого обучения сотен лиц»), то естьКлассические дифференцируемые генеративные сети $AutoEncoder,AE$ .

Следующий контент взят из «Глубокого обучения сотен лиц».

стандартный $AE$ кодером $encoder$ и декодер $decoder$ Он состоит из двух частей, как показано выше. Всю модель можно рассматривать как процесс «сжатия» и «распаковки»: сначала кодировщик преобразует реальные данные (реальные образцы) $x$ Сжатый в скрытый вектор в маломерном скрытом пространстве $z$ , вектор можно рассматривать как «сущность» ввода. Затем декодер преобразует этот скрытый вектор $z$ Разархивируйте, чтобы получить сгенерированные данные (сгенерированные образцы) ${\tilde x}$ . Во время обучения будут генерироваться образцы ${\tilde x}$ реальный образец $x$ Сделайте сравнение, обновите параметры кодировщика и декодера в направлении уменьшения разницы между ними, и конечная цель — ожидать реальных образцов. $x$ Сжатый скрытый вектор $z$ Может максимально уловить суть входных данных, чтобы сгенерированные сэмплы реконструировались из них. ${\tilde x}$ с реальными образцами $x$ как можно ближе.

Вот немного больше понимания, поэтому эта скрытая переменная $z$ так важно.

Мы знаем, что картинка хранится в виде матрицы в компьютере. Например, в изображении числа 8 8, написанное каждым человеком, разное, то его матрица будет очень разной и найти какие-то правила сложно. скрытая переменная $z$ Что я хочу сделать, так это использовать простейший вектор для представления всех функций изображения.Например, у нас есть 2-мерный вектор для представления цифрового изображения, тогда идеальное представление: [Это число 8, 24 градусов влево]. Наверное это имеется в виду.

назад $AE$ в обсуждении, $AE$ В чем проблема? Глядя на его структуру обучения, можно обнаружить, что он может генерировать скрытую переменную только для текущего изображения. $z$ и сгенерированные данные ${\tilde x}$ . так $AE$ Есть хороший шанс, что он не будет распространяться на невидимые изображения. Другими словами, он будет только имитировать, но не создавать, и не может генерировать произвольные новые образцы.

в виде $AE$ Обновить, $Variational AutoEncoder, VAE$ Решение $AE$ Только имитируйте проблемы, которые не создают. На картинке ниже $VAE$ Фреймворк, взятый из "Hundred Faces Deep Learning"

Следующий контент взят из «Глубокого обучения сотен лиц».

$VAE$ Основным преимуществом является возможность генерировать новые скрытые векторы $z$ , а затем сгенерируйте допустимые новые образцы. $VAE$ Возможность генерировать новые образцы (с $AE$ Самая большая разница) в том, что, $VAE$ В процесс кодирования добавляются некоторые ограничения, вызывающие апостериорное распределение скрытых векторов, создаваемых кодировщиком. $q(z|x)$ Постарайтесь максимально приблизиться к определенному распределению (например, нормальному распределению). $VAE$ Цели оптимизации процесса обучения включают ошибку реконструкции и апостериорное распределение. $q(z|x)$ Ограничения этих двух частей. $VAE$ Выход кодировщика больше не является вектором в скрытом пространстве, а представляет собой среднее значение и стандартное отклонение нормального распределения, а затем скрытый вектор выбирается в соответствии со средним значением и стандартным отклонением. $z$ . Из-за случайности выборки каждое входное изображение $VAE$ Результирующее сгенерированное изображение больше не является уникальным, если $z$ выбирается из нормального распределения в скрытом пространстве, и результирующее изображение является достоверным.

$VAE$ Кодер, который вычисляет среднее значение в $AE$ Кодировщик в и кодер, вычисляющий стандартное отклонение, эквивалентны добавлению шума в процесс реконструкции, что делает декодер более устойчивым к шуму.Когда шум равен 0, $VAE$ выродиться в $AE$ .

против $VAE$ идеи, мы продолжаем общаться.

Например, если мы хотим сгенерировать изображение лица, то фактически лицо имеет общую характеристику, отличную от других частей или других объектов, то есть есть некая характеристика распределения, относящаяся к категории лица. Определим это распределение как $P_{data}(x)$ . Тогда, если мы будем делать выборку в этом распределении, существует высокая вероятность выборки разумного изображения лица.Конечно, также возможно выбрать очень плохое изображение лица в области с низкой вероятностью или вообще не изображение лица. Итак, проблема, которую мы хотим решить, состоит в том, как точно описать это неизвестное распределение с помощью выборки.

На этот раз мы подумалиоценка максимального правдоподобия.Используя результаты выборки, найдите значения параметров модели, которые с наибольшей вероятностью могут привести к возникновению этих результатов выборки.

Мы можем использовать известный нам дистрибутив $P_{G}(x;\theta)$ приближать $P_{data}(x)$ . ища $P_{G}(x:\theta)$ лучшие параметры $\theta$ максимизировать:

Теперь обратите внимание на следующий вывод:

\begin{array}{l} {\theta ^*} = \arg\mathop {\max}\limits_\theta\prod\limits_{i = 1}^m {{P_G}({x^i};\ тета)} \\ = \arg \mathop {\max}\limits_\theta \log \prod\limits_{i = 1}^m {{P_G}({x^i};\theta)} \\ = \ arg \ mathop {\ max} \ limit_ \ theta \ sum \ limits_ {i = 1} ^ m {\ log } {P_G} ({x ^ i}; \ theta) \\ \ приблизительно \ arg \ mathop {\ max }\limits_\theta {E_{x\sim{P_{data}}}}[\log {P_G}(x;\theta)]\\ = \arg\mathop {\max}\limits_\theta\int_x { {P_{данные}}(x)} \log {P_G}(x;\theta)dx - \int_x {{P_{данные}}(x)} \log {P_{данные}}(x)dx\\ Добавление второго члена к приведенному выше уравнению не влияет на результат, потому что нет P_G\\ = \arg \mathop {\min }\limits_\theta KL({P_{data}}||{P_G}) \end {массив}

Найдите, что максимальная вероятность эквивалентна минимизации расхождения KL. Это означает, что мы ищем $P_G$ , делая его таким же, как $P_{data}$ Расхождение KL минимально возможно.

Ограничение оценки максимального правдоподобия состоит в том, что когда $P_G$ Будет трудно рассчитать, когда очень сложно. и $GAN$ ** Приведенное решение состоит в том, чтобы использовать нейронную сеть для определения распределения вероятностей. $P_G$ . **который $Generator$ .

Как мы упоминали ранее, $Generator$ Входные данные представляют собой выборку распределения, обратитесь к оценке максимального правдоподобия для $P_G$ оптимизация параметров, $GAN$ через нейросетевой модуль $Generator$ , который преобразует одно распределение в качестве входных данных в другое, более близкое к $P_{data}$ Распределение. Эта мотивация может быть выражена как минимизация расхождения между ними:

{G^*} = \arg \mathop {\min }\limits_G Div({P_G},{P_{data}})

Теперь вопрос в том, как измерить $P_G$ и $P_{data}$ Как насчет расхождения (различия) между? $GAN$ предложил использовать другой сетевой модуль для $P_{data}$ и $P_G$ Идея подсчета очков заключается в том, что этот модуль оценивает свои $Discriminator$ . На самом деле, это по существу $sigmoid$ Процесс выполнения бинарной классификации.

Проверьте, прежде чем мы обновим $D$ Целевая функция с параметрами в , что эквивалентно максимизации:

V = {E_{x \sim {P_{data}}}}[\log D(x)] + {E_{x \sim {P_G}}}[\log (1 - D(x))]\\ = \int_x {[{P_{data}}(x)} \log D(x) + {P_G}(x)\log (1 - D(x))]dx

Предположим здесь $D(x)$ Может быть любой функцией, может получить любую $x$ . Кроме того, баллы на самом деле $x$ суперпозиция в , так что мы можем положить каждый $x$ Посчитать отдельно, то есть отдельно посмотреть на содержание знака интеграла. Итак, у нас есть:

f(D(x)) = a\log D(x) + b\log (1 - D(x))

$a:P_{data}(x),b:P_G(x)$

Чтобы найти экстремальное значение, да $D(x)$ Вывод может быть получен ${D^*} = \frac{{{P_{data}}(x)}}{{{P_{data}}(x) + {P_G}(x)}}$ . Подставьте его в приведенную выше целевую функцию, чтобы получить следующий вывод:

\begin{array}{l} \mathop {\max }\limits_D V(G,D) = V(G,{D^*})\\ = \int_x {[{P_{data}}(x)} \log \frac{{{P_{data}}(x)}}{{{P_{data}}(x) + {P_G}(x)}} + {P_G}(x)\log (\frac{{{P_{data}}(x)}}{{{P_{data}}(x) + {P_G}(x)}})]dx\\ = - 2\log 2 + \int_x {[{P_{data}}(x)} \log \frac{{{P_{data}}(x)}}{{({P_{data}}(x) + {P_G}(x))/2}} + {P_G}(x)\log (\frac{{{P_{data}}(x)}}{{({P_{data}}(x) + {P_G}(x))/2}})]dx\\ = - 2\log 2 + KL({P_{data}}||\frac{{{P_{data}} + {P_G}}}{2}) + KL({P_G}||\frac{{{P_{data}} + {P_G}}}{2})\\ = - 2\log 2 + 2JSD({P_{data}}||{P_G}) \end{array}

Как видно из приведенного выше вывода, $GAN$ Целевая функция на самом деле является дивергенцией JS.

мы упоминали выше $GAN$ мотивация ${G^*} = \arg \mathop {\min }\limits_G Div({P_G},{P_{data}})$ , после обновления $D$ После параметров максимизируемое $P_G$ и $P_{data}$ После разности мотивация может быть заменена эквивалентной ${G^*} = \arg \mathop {\min }\limits_G \mathop {\max }\limits_D V(D,G)$ . Это $minmax$ игра, в процессе $G$ и $D$ Цель противоположная, означающая «противостояние». Благодаря методу конфронтационного обучения генератор и дискриминатор поочередно оптимизируются, растут вместе и, наконец, превращаются в две равномерно подобранные электростанции. $GAN$ Базовая структура:

Давайте разберем это на примере $minmax$ игра. Предположим, мы можем настроить три раза $G$ , соответственно $G_1,G_2,G_3$ . для каждого $G_i$ , у нас есть абсцисса как $D$ , ордината $V(G,D)$ систему координат, как показано на рисунке ниже.

Первый шаг, который нам нужно исправить $G$ параметры для выбора лучшего $D$ параметры, наблюдайте за тремя картинками, очевидно, что каждая картинка имеет свой оптимальный $V$ значения, как показано точками на рисунке. Это $max$ .

На втором шаге нам нужно исправить $D$ параметры для выбора лучшего $G$ , даже если вы решите использовать $V$ самый маленький $G_2$ . Это $min$ .

После двух вышеуказанных шагов $G$ и $D$ Все параметры обучены, и этот пример относительно интуитивно понятен и прост для понимания.

Проблемы с GAN

(Узнайте здесь или выдержка из «Глубокого обучения сотен лиц»)

Как упоминалось ранее, дискриминатор подобен бинарному классификатору, выдающему 1 для реальных выборок и 0 для сгенерированных выборок. мы видим $D$ цель оптимизации $\tilde V = \frac{1}{m}\sum\limits_{i = 1}^m {\log D({x^i}) + } \frac{1}{m}\sum\limits_{i = 1}^m {\log (1 - D({{\tilde x}^i}))}$ , который можно рассматривать как процесс минимизации перекрестной энтропийной потери (максимизация логарифмической функции правдоподобия задачи классификации). Эта целевая функция теоретически проблематична. В начале обучения на вход генератора подается случайный шум, который принципиально отличается от реальных данных.В это время для двухклассового дискриминатора эта двухклассовая задача просто слишком проста (Представьте, что главный редактор отказывается от острой курицы, и даже не хочет отправлять ее на рассмотрение.), дискриминатор может различить их с высокой уверенностью, в это время $log(1-D(\tilde x^i))$ Насыщение достигается, градиент исчезает, и генератор не может быть обеспечен достаточно большим градиентом.

Как было сказано выше, когда генератор $G$ Когда параметры фиксированы, функция потерь генератора при оптимальном дискриминаторе имеет вид: $- 2\log 2 + 2JSD({P_{data}}||{P_G})$ . **когда $P_{data}$ и $P_G$ Когда два распределения (почти) не перекрываются, $JS$ Дивергенция постоянная. **Затем в $GAN$ Насколько велико перекрытие между ними? Генератор обычно выбирает вектор из пространства низкого порядка (например, 128 измерений) и отображает его в пространство высокого размера (например, $32 \times 32$ Изображение 1024-мерное), поэтому сгенерированные данные представляют собой просто многообразие низкого порядка в пространстве высокого порядка (например, все возможности генерации отсчетов в приведенном выше 1024-мерном космическом изображении фактически ограничены 128-мерным пространством). размерный входной вектор). Точно так же реальное распределение также является маломерным многообразием в многомерном пространстве Вероятность встречи двух маломерных многообразий в многомерном пространстве в таком «малонаселенном» пространстве близка к 0, поэтому сгенерированное распределение: истинное распределение почти не перекрывается. Следовательно, будет проблема исчезновения градиента, упомянутая в предыдущем абзаце.

Чтобы решить эту проблему, вы можете $log(1-D(\tilde x^i))$ заменить $-log(D(\tilde x^i))$ . Это обеспечивает больший градиент для генератора в начале обучения. Однако это также проблематично в теории.Давайте посмотрим на следующий вывод:

\begin{array}{l} L(G) = \mathop {\max }\limits_D V(G,D) = V(G,{D^*})\\ = {E_{x \sim {P_{data}}}}[\log ({D^*}(x))] + {E_{x \sim {P_G}}}[ - \log ({D^*}(x))]\\ = {E_{x \sim {P_{data}}}}[\log ({D^*}(x))] + {E_{x \sim {P_G}}}[ - \log (\frac{{{P_{data}}(x)}}{{{P_{data}}(x) + {P_G}(x)}})]\\ = {E_{x \sim {P_{data}}}}[\log ({D^*}(x))] + {E_{x \sim {P_G}}}[ - \log (\frac{{\frac{{{P_{data}}(x)}}{2}}}{{({P_{data}}(x) + {P_G}(x))/2}})]\\ = {E_{x \sim {P_{data}}}}[\log ({D^*}(x))] + {E_{x \sim {P_G}}}[ - (\log (\frac{{{P_{data}}(x)}}{{({P_{data}}(x) + {P_G}(x))/2}}) - \log 2)]\\ = {E_{x \sim {P_{data}}}}[\log ({D^*}(x))] - {E_{x \sim {P_G}}}[\log (\frac{{{P_{data}}(x)}}{{({P_{data}}(x) + {P_G}(x))/2}}] + \log 2\\ = {E_{x \sim {P_{data}}}}[\log ({D^*}(x))] + {E_{x \sim {P_G}}}[\log (\frac{{{P_g}(x)}}{{{P_{data}}(x)}}] - {E_{x \sim {P_G}}}[\log (\frac{{{P_g}(x)}}{{({P_{data}}(x) + {P_G}(x))/2}}] + \log 2\\ = 2{E_{x \sim {P_{data}}}}[\log ({D^*}(x))] + KL({P_g}(x)||{P_{data}}(x)) - 2JS({P_g}(x)||{P_{data}}(x)) + 2\log 2 \end{array}

Удаление нескольких членов, не связанных с генератором, минимизация этой функции потерь эквивалентно минимизации расхождения KL истинного распределения и сгенерированного распределения при одновременном увеличении расхождения JS обоих. Такие противоречия вызовут нестабильность градиента во время обучения. Кроме того, из-за асимметрии расходимости KL будут несовместимые штрафы за ошибки генератора. Эта проблема непоследовательного штрафа означает, что распределение реальных данных часто бывает сложным и мультимодальным, распределение данных будет иметь множество закономерностей, а сходные выборки принадлежат одной закономерности. Поскольку штраф непостоянен, штраф для режима А может быть намного меньше, чем штраф для других режимов, поэтому генератор будет генерировать только выборки режима А, вызывая коллапс режима. В этот момент генератору не хватает разнообразия, что может вызвать ${P_G}(x) \to 0,{P_{data}}(x) \to 1$ , а KL-дивергенция целевой функции приближается к 0. И когда генератор генерирует нереальные сэмплы ${P_G}(x) \to 1,{P_{data}}(x) \to 0$ , штраф будет стремиться к бесконечности.

Ссылаться на

воооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооо по
«Столикое глубокое обучение»
zhuanlan.zhihu.com/p/74075915
zhuanlan.zhihu.com/p/24767059

Мотивация для GAN

ПочемуGGGВы не можете учиться самостоятельно, вместо того, чтобы полагаться на этоDDDсуждение?

Проблемы с GAN

Ссылаться на

Почему $G$ Вы не можете учиться самостоятельно, вместо того, чтобы полагаться на это $D$ суждение?