10 обязательных к прочтению статей о GAN

глубокое обучение GAN

предисловие

Последняя написанная статья --Узнайте о том, что могут сделать GAN, Если вы хотите узнать больше о GAN и научиться изучать GAN, вы можете начать с этих 10 статей.

Эта статья переведена с:

к data science.com/must-read-afraid…

Исходный текст представляет 10 статей, которые представляют GAN и последние достижения. Порядок введения отличается от исходного текста. Я представлю статьи GAN, предложенные в начале, последним в хронологическом порядке. Десять статей следующие :

  1. Генеративно-состязательные сети, 2014 г.
  2. Условные GAN, 2014 г.
  3. ДКГАН, 2015 г.
  4. Улучшенные методы обучения GAN, 2016 г.
  5. Пикс2Пикс, 2016 г.
  6. ЦиклГАН, 2017 г.
  7. Постепенный рост сетей GAN, 2017 г.
  8. СтекГАН, 2017 г.
  9. БигГАН, 2018 г.
  10. СтильГАН, 2018

Первой статьей, рекомендованной первоначальным автором для начала, является DCGAN.

В конце статьи я представляю несколько проектов Github, посвященных сбору документов по GAN и реализации моделей GAN с помощью TensorFlow, PyTorch и Keras.


1. Generative Adversarial Networks

Название статьи: Генеративные состязательные сети

Адрес бумаги:АР Вест V.org/ABS/1406.26…

"Отец GAN" Ян Гудфеллоу опубликовал первую статью, предлагающую GAN. Это должен быть документ, который должен прочитать каждый, кто начинает изучать и изучать GAN. В нем предлагается модельная структура GAN и обсуждается ненасыщенная функция потерь. Затем дается производная для оптимального дискриминатора, затем проводится доказательство, наконец, эксперименты проводятся на наборах данных Mnist, TFD, CIFAR-10.

2. Conditional GANs

Название статьи: Условно-генеративные состязательные сети

Адрес бумаги:АР Вест V.org/ABS/1411.17…

Если последняя статья GAN является началом GAN, моделирующей структуры, которая заставляет людей чувствовать себя яркими, то этот cGAN является одним из важных факторов, делающих текущую модельную технологию GAN такой популярной.Фактически, GAN начиналась как неконтролируемая модель. Генератору нужен только случайный шум, но эффект не очень.Он был предложен в 2014 году.До 2016 года исследований в этой области было мало.На самом деле было опубликовано много связанных статей.Первый фактор это cGAN,второй фактор DCGAN, который будет представлен позже;

cGAN на самом деле тянет GAN обратно кконтролируемое обучениеrealm, как показано на изображении ниже, добавляется в раздел генератораметка категории для этого входа, Благодаря этому улучшению, основная проблема GAN - нестабильное обучение, и эта идея, практика введения предварительных знаний, используется сегодня в большинстве очень известных GAN. Сгенерированные изображения, описанные позже, BigGAN или Pix2Pix преобразования изображений, все это идея.Можно сказать, что предложение cGAN очень важно.

3. DCGAN

Название статьи: Неконтролируемое репрезентативное обучение с помощью глубоких сверточных генеративно-состязательных сетей

Адрес бумаги:АР Вест V.org/ABS/1511.06…

Фактически, первоначальный автор рекомендовал первой статье прочитать эту статью DCGAN, опубликованную в 2015 году. Это первый раз, когда модель GAN была реализована со структурой CNN, и она описывает, как использовать сверточные слои, и дает некоторые дополнительные структурные рекомендации по реализации. Кроме того, в нем обсуждается, как визуализировать функции GAN, интерполировать скрытые пространства, обучать классификаторы с функциями дискриминатора и оценивать результаты. На следующем рисунке представлена ​​схема генераторной части DCGAN.

4. Improved Techniques for Training GANs

Название статьи: Улучшенные методы обучения GAN

Адрес бумаги:АР Вест V.org/ABS/1606.03…

Одним из авторов этой статьи является Ян Гудфеллоу, который дает много советов о том, как построить структуру GAN, может помочь вам понять причины нестабильности GAN и дает много предложений для стабильного обучения DCGAN, таких как функция сопоставление (сопоставление признаков)), различение мини-пакетов, одностороннее сглаживание меток, виртуальная нормализация пакетов и т. д. Использование этих предложений для реализации моделей DCGAN — хороший способ узнать о способах работы GAN.

5. Pix2Pix

Название статьи: Преобразование изображения в изображение с помощью условных состязательных сетей

Адрес бумаги:АР Вест V.org/ABS/1611.07…

Цель Pix2Pix — реализовать приложение для преобразования изображений, как показано на следующем рисунке. Эта модель должна использовать парные обучающие данные при обучении и использует разные конфигурации для модели GAN. Среди них он применяется к модели PatchGAN.PatchGAN наблюдает за областью изображения размером 70 * 70, чтобы судить, является ли изображение истинным или ложным, без наблюдения всего изображения.

Кроме того, часть генератора использует структуру U-Net, которая сочетает в себе технологию пропускных соединений в сети ResNet, а соответствующие уровни кодера и декодера связаны друг с другом, что позволяет реализовать операции преобразования, показанные на следующем рисунке. , такие как преобразование семантической карты, просмотр улиц, раскрашивание черно-белых изображений, превращение эскизов в настоящие фотографии и т. д.

6. CycleGAN

Название статьи: Преобразование непарного изображения в изображение с использованием циклически согласованных состязательных сетей

Адрес бумаги:АР Вест V.org/ABS/1703.10…

Проблема предыдущей статьи Pix2Pix заключается в том, что обучающие данные должны быть парными, то есть требуется исходное изображение и соответствующее преобразованное изображение, а реальность такова, что такие данные очень сложно найти, а некоторые даже нет таких данных преобразования один к одному, поэтому есть С CycleGAN вам нужно только подготовить наборы данных в двух полях, например изображения обычных лошадей и изображения зебр, но нет один к одному переписка. В этой статье предлагается очень хороший метод — функция потерь Cycle-Consistency, как показано на следующем рисунке:

Эта структура используется во многих документах GAN для приложений преобразования изображений.cycleGAN может реализовать некоторые приложения, как показано на рисунке ниже, преобразование обычных лошадей и зебр, перенос стиля (фотографии в картины маслом), зимние и летние сезоны и т. д.

7. Progressively Growing of GANs

Название статьи: Прогрессивный рост сетей GAN для повышения качества, стабильности и разнообразия

Адрес бумаги:АР Вест V.org/ABS/1710.10…

Причина, по которой эту статью необходимо прочитать, заключается в очень хороших результатах и ​​творческом подходе к проблеме GAN. Он использует многомасштабную структуру из4*4прибыть8*8вплоть до1024*1024разрешение, структура, показанная на рисунке ниже, в этой статье предлагается несколько способов решения проблемы нестабильности, вызванной размером целевого изображения.

8. StackGAN

Название статьи: StackGAN: Синтез текста в фотореалистичные изображения с помощью сложенных генеративно-состязательных сетей

Адрес бумаги:АР Вест V.org/ABS/1612.03…

StackGAN похож на cGAN и Progressively GAN, которые также используют предварительные знания и многомасштабные методы. Вся структура сети показана на рисунке ниже.Первый этап основан на заданном текстовом описании и случайном шуме, а затем выводит64*64, а затем использовать его как предварительное знание для повторного создания256*256размер изображения. По сравнению с 7 статьями, рекомендованными выше, StackGAN вводит текстовую информацию через текстовый вектор и извлекает некоторые визуальные функции.

9. BigGAN

Адрес статьи: Крупномасштабное обучение GAN для синтеза естественного изображения с высокой точностью

Адрес бумаги:АР Вест V.org/ABS/1809.11…

BigGAN должен быть лучшей моделью для генерации изображений в ImageNet.Результаты его генерации показаны на рисунке ниже, что очень реалистично, но эту работу трудно воспроизвести на локальном компьютере.Она сочетает в себе множество структур и технологий одновременно. Включая механизм самоконтроля (Самовнимание), спектральную нормализацию (Спектральная нормализация) и т. д., они хорошо представлены и объяснены в статье.

10. StyleGAN

Адрес документа: Архитектура генератора на основе стилей для генеративно-состязательных сетей

Адрес бумаги:АР Вест V.org/ABS/1812.04…

StyleGAN использует естественные методы передачи стиля, такие как Adaptive Instance Normalization (AdaIN), для управления скрытыми пространственными переменными.z. Его сетевая структура показана на рисунке ниже.Он сочетает в себе сеть отображения и условное распределение AdaIN в производственной модели.Это непросто воспроизвести, но эту статью все же стоит прочитать, и она содержит много интересных идей.


резюме

В этой статье в основном представлены 10 статей GAN, которые стоит прочитать, от статьи, в которой была предложена эта модель, до статей до 2018 года, включая cGAN и DCAN, которые очень влиятельны, а также Pix2Pix и Pix2Pix, которые очень важны в области преобразования изображений. CycleGAN и BigGAN, которые в последнее время очень хорошо зарекомендовали себя.

Если вы хотите изучить это направление, вы можете прочитать эти 10 работ. Кроме того, я рекомендую проект Github, который собирает большое количество статей GAN и разделяет статьи в соответствии с направлением приложения:

И три проекта github, которые воспроизводят различные модели GAN, которые являются тремя текущими основными фреймворками, TensorFlow, PyTorch и Keras:

Наконец, после того, как 10 документов, представленных в статье, были загружены и упакованы, как их получить:

  1. Обратите внимание на общественный номер»Рост алгоритма обезьяны"
  2. Отвечать "бумага ГАН», чтобы получить ссылку на сетевой диск.

Добро пожаловать в мой общедоступный аккаунт WeChat--Рост алгоритма обезьяныили отсканируйте QR-код ниже, чтобы общаться, учиться и развиваться вместе!