GAN существует уже 6 лет! Пришло время для инсульта!

глубокое обучение

Во-первых, если название этой статьи такое, если вы чувствуете себя некомфортно, ха-ха, не вините меня, это, вероятно, результат «глубокого отравления» текущими статьями в СМИ!


2014-2019, ГАН рождается уже 6 лет. GAN — это генеративная модель, которая широко используется для генерации информации, такой как изображения. Для данного пакета данных GAN может преобразовывать шум, выбранный с помощью распределения Гаусса, в новые данные, аналогичные заданным данным, чтобы получить устойчивый поток реалистичных «синтетических данных». Конкретные математические принципы см.:01-Краткий принцип формулы GAN - Маленькие сокровища в железной броне. Позже, чтобы лучше контролировать сгенерированное содержимое/эффект, была добавлена ​​различная условная информация, такая как кодировка изображения, чтобы можно было достичь цели преобразования стиля изображения.

Сегодня я рекомендую краткий обзор генеративно-состязательных сетей GAN (в основном по генерации и преобразованию изображений): Шесть фронтов генеративно-состязательных сетей (АР Вест V.org/PDF/1910.13…Шесть аспектов структуры сети, информация о состоянии, нормализация и ограничения, функция потерь, преобразование изображения и критерии оценки кратко разобраны и рассмотрены.

Если вам лень скачивать и читать исходный текст, то можете взглянуть на краткий перевод, который я сделал по его содержательной структуре после беглого взгляда на текст, с вкраплениями некоторых моих собственных «сплетен». что-то не так, пожалуйста, исправьте это.

В документе есть отличная хронология GAN. Упомянутые 29 GAN в основном довольно классические. Они были упакованы и загружены. Вы можете следить за общедоступной учетной записью WeChat «Узнайте немного поэзии и знаний об искусственном интеллекте» и ответьте на «29GAN», чтобы получить адрес загрузки всех сетевых дисков диссертации.

Ладно, давайте перейдем к основному тексту...

Проблемы и вызовы ГАН

Основная головная боль GAN заключается в том, что обучение нестабильно, затруднена сходимость и трудно точно контролировать генерируемый контент, поэтому были предложены различные структуры сети, функции потерь, методы добавления информации условного контроля и различные ограничения. . Кроме того, во время обучения выбор различных гиперпараметров также оказывает огромное влияние на конечный результат, например, эксперименты bigGAN с такими гиперпараметрами, как размер пакета и глубина/ширина сети, иллюстрируют этот момент. В статье «Ганы созданы равными? Крупномасштабное исследование» даже считается, что до тех пор, пока дается достаточно времени для настройки гиперпараметров и случайной инициализации, окончательный эффект функций потерь и методов, предлагаемых многими вариантами GAN, неразличим. .

Хотя GAN прекрасно работает со связанными наборами данных, такими как лица, он часто сильно страдает от наборов данных со сложными сценами и переменными формами текстур. Если количество категорий изображения слишком велико или оно несбалансировано, это, скорее всего, вызовет другие проблемы, такие как коллапс режима (генерация одного изображения). На самом деле, я сам чувствую, что в текущем изображении, сгенерированном GAN, «большое разрешение» и «точный контроль содержимого изображения» часто трудно иметь и то, и другое.

один. сетевая структура

Сначала GAN могут генерировать изображения только с меньшим разрешением, например изображения рукописных цифр MNIST размером 32X32. Поскольку обучение дискриминатора и генератора по своей природе трудно понять, часто требуется, чтобы они были в равных условиях, и не было импульса, чтобы сокрушить друг друга, чтобы добиться процесса конфронтации. конфронтации может быть достигнут окончательный идеал баланс. А большие изображения означают более сложные пространства функций, более сложные задачи, и это слишком сложно, чтобы одновременно сталкиваться с ними обоими.

В результате классическая DCGAN вырвалась вперед в атаке.Чтобы попытаться смягчить эту «слишком южную ситуацию», было предложено убрать слой пула, полносвязный слой, использовать БН и т.д. Однако эффект улучшения действительно ограничен, и он может создать только немного большее изображение. И LAPGAN представляет конвейер в стиле пирамиды, который, кажется, генерирует только разрешение 96X96. Некоторые последующие работы также в основном ограничены 128X128 (ACGAN), 256X256 пикселей. В 2018 году с появлением Progressive GAN (PGAN) были созданы потрясающие изображения лиц с разрешением 1024x1024. На самом деле, многие бумаги до сих пор работают над размером изображения 128Х128 и 256Х256, потому что каким бы большим оно ни было, оно сойдет на нет или рухнет.

StyleGAN в 2019 году называется GAN 2.0, потому что он больше не просто получает шум или скрытую переменную Z на первом уровне, а вводит их на каждый уровень генератора, и перед отправкой Z в «настоящий» генератор. Сначала попробуйте разъедините его через многослойное полное соединение, как показано на следующем рисунке.

Цель разделения состоит в том, чтобы сделать скрытое пространство, представленное Z, состоящим из линейных подпространств, то есть некоторое подпространство (каждое измерение) управляет какой-либо функцией. Однако скрытое пространство Z часто может быть запутанным, и Z разъединяется посредством обучаемой полностью связанной сети, так что изменяющиеся факторы становятся более линейными. Это может быть немного сложно сказать.Для неуместного примера, при создании изображений Чжу Бацзе, до того, как предыдущая ГАН не будет хорошо отделена, определенное измерение в Z может одновременно управлять большими глазами, носом и животом второй старший брат.После разделения конечная визуальная функция, представленная этим слоем, управляется путем изменения входных данных каждого слоя отдельно, не затрагивая другие слои.

два. Информация о состоянии

Как мы все знаем, исходный GAN основан только на шуме как на входе генератора, и невозможно (неконтролируемо) сгенерировать указанное изображение, По этой причине исследователи пытаются ввести условную информацию или маркировать информацию, чтобы для создания более идеального образа.

В 2014 году CGAN попыталась контролировать класс сгенерированного изображения, приняв конкатенацию меток классов и входного шума в качестве входных данных генератора. В ACGAN вход генератора также связан с информацией об метках/условиях, а выход дискриминатора состоит из двух частей: одна часть оценивает истинность и ложность, а другая часть выводит категорию. В документе ICLR «cGAN с проекционным дискриминатором» в 2018 году способ добавления условной информации больше не заключается в сплайсинге, а в выборе функции, полученной после ввода дискриминатора, и условной информации для выполнения скалярного произведения внутреннего продукта. SPADE 2019 был вдохновлен AdaIN.При синтезе семантически сегментированных изображений меток в реальные изображения нормализованные параметры в процессе генерации генератора имеют форму тензоров, свернутых из семантической карты меток, сохраняя карту меток.Пространственная информация в длине а размеры ширины затем масштабируются и сдвигаются, чтобы достичь цели создания более точных изображений.

три. Нормализация и ограничения параметров

В более ранних DCGAN и генератор, и дискриминатор использовали пакетную нормализацию для решения хорошо известной проблемы внутреннего ковариатного сдвига. В прогрессивном обучении PGAN автор считает, что их проблема больше не заключается во внутреннем ковариантном сдвиге, а принимает метод нормализации без параметров Pixelwise Normalization; кроме того, также упоминается метод ограничения параметров, называемый Equalized Learning Rate, который может лучше стабилизировать процесс обучения, подробности см. в оригинальном документе.

Знаменитая спектральная нормализация Спектральная нормализация также используется для ограничения параметров.Например, после спектральной нормализации параметров дискриминатора D, D можно заставить удовлетворять липшицевой непрерывности Липшица, чтобы сеть лучше реагировала на вход Хорошая нечувствительность делает тренировочный процесс более стабильным и легко сходящимся. Аналогично, в знаменитой WGAN в качестве меры предлагается расстояние Вассерштейна, и оно преобразуется в задачу решения оптимальной липшицевой непрерывной функции, а для этого проводятся ограничения параметров: лишние параметры прямо обрезаются до порогового значения следующее. Для более подробного объяснения принципа обратитесь к соответствующему толкованию: Удивительный ГАН Вассерштейна.

Четыре. функция потерь

Исходная потеря GAN использует расхождение JS для измерения сгенерированного распределения данных и реального распределения данных, и расхождение JS может легко привести к таким проблемам, как нестабильное обучение и исчезновение градиентов. Поэтому появилось несколько вариантов GAN, таких как LSGAN и WGAN, которые пытаются использовать лучшие показатели расстояния. Кроме того, в дополнение к использованию только расчета потерь и обратного распространения на уровне выходного изображения, расчет потерь для карты объектов промежуточного слоя объектов также начал привлекать внимание.Например, все чаще появляется Perceptual Loss в газетах ГАН. Ха-ха, но, как упоминалось ранее, похоже, есть также документы, которые считают, что, хотя все эти варианты потери GAN утверждают, что они добились прогресса, с достаточной вычислительной мощностью и уровнем обучения, все на самом деле друг друга.

Лично я считаю, что разные потери могут иметь свои преимущества в разных сценариях, или может быть сложно добиться одинакового эффекта в одном и том же сценарии.

пять. преобразование изображений

Эта штука действительно является основным полем боя ГАН, и приложений у нее много. С самого начала классического pix2pix, циклаGAN до UNIT, MUNIT, starGAN до SPADE слишком много.За последние два-три года было опубликовано более тысячи статей, связанных с image-to-image.Просто найдите различных связанных интерпретаций в Интернете.Существуют также сотни тысяч приложений, таких как перенос стиля, редактирование атрибутов лица/изменение лица, перенос макияжа (см. статью, которую я организовал: Перенос макияжа лица! с GAN (это общедоступный номер)), синтез/улучшение медицинского изображения, виртуальная перевязка/удаление/изменение (ссылка: виртуальная смена! Эти последние документы не приходят в GAN GAN (просмотрите этот общедоступный номер)), удаление дождя, шумоподавление и удаление тумана, демозаика, удаление теней, супер-разрешение и т. д., их слишком много.

VI. МЕТОДОЛОГИЯ ОЦЕНКИ

Оценка сгенерированных изображений также чрезвычайно сложна. Количественные показатели, такие как IS и FID, часто используются для оценки сгенерированных изображений, которые оцениваются с использованием прямых прогнозов из предварительно обученных сетей классификации ImageNet. Очевидно, что это слишком ненадежно для некоторых категорий изображений, которые не фигурируют в данных ImageNet. Качественные показатели, такие как субъективные оценки людей, имеют разные мнения, и даже у одного и того же человека в разное время и в разное время будут разные эмоции и эмоции.Нелегко разработать репрезентативную или более обширную оценку. В настоящее время предложены некоторые другие индикаторы в различных сценариях или задачах, но ни один из них не совершенен, и следует оценивать только индикаторы, которые являются максимально многогранными и обоснованными.

Для более актуального обмена знаниями, пожалуйста, обратите внимание на общедоступную учетную запись WeChat: Learn Poetry and AI Knowledge.