Обзор руководства для начинающих | Слишком много моделей GAN, не знаете, какую выбрать?

глубокое обучение

Нажмите на синее слово выше, чтобы подписаться~

Связанное Чтение: \

GAN существует уже 6 лет! Пришло время для инсульта! 

Были загружены сотни документов GAN! С недавним обзором генеративно-состязательных сетей!\

Немного преувеличено, немного искажено! Взгляните на то, как эти GAN преувеличивают и карикатурно изображают лица!\

В небе дождь, а у меня его нет! Как насчет GAN для удаления дождя?\

Исправьте свое лицо! Сможет ли ГАН сделать так, чтобы убийце профиля и свинке Пеппе действительно негде было спрятаться?\

Угасание! ГАН прогнозировать?\

Руошуй три тысячи, только бери свою отметку! Как насчет AL (активного обучения) в сочетании с GAN?\

Обнаружение аномалий, как работает GAN?

[1] Как насчет генерации GAN на медицинских изображениях?

01-Краткий принцип формулы GAN - Маленькие сокровища в железной броне\


Я сегодня видел такую ​​тему диссертации"A Novel Framework for Selection of GANs for an Application", название такое, 6, давно не было мощного варианта GAN? Новый фреймворк GAN? Я решил скачать его и посмотреть! Что бросилось в глаза, так этоРезюме:

Генеративно-состязательные сети (GAN) находятся в центре внимания текущих исследований. Однако из-за разрозненности знаний неподходящие алгоритмические модели могут быть опробованы много раз при выборе подходящей модели GAN для данного сценария приложения. В этой статье представлен исчерпывающий обзор от рождения GAN до разработанных до сих пор вариантов, в том числе о том, как решать такие проблемы, как коллапс режима, исчезновение градиента, нестабильное обучение и несхождение. С точки зрения приложения сравнение представлено с точки зрения производительности и деталей реализации. Предлагается новая структура для определения альтернативных GAN с точки зрения сетевой архитектуры, потерь, регуляризации и мер расхождения в конкретных сценариях. При обсуждении простого примера показано, что пространство поиска вариантов GAN может быть значительно сокращено. Такой подход может снизить затраты на разработку ИИ.

Ну, разве это не просто резюме, 2333Хорошо, все здесь, просто сделайте запись. Новички, изучающие GAN, также могут получить обзор области GAN. [Следующие таблицы суммированы, вы можете рассмотреть их поближе~

На самом деле, я также написал два предисловия к обзору ранее, и есть соответствующие документы для загрузки:

  GAN существует уже 6 лет! Пришло время для инсульта! 

  Были загружены сотни документов GAN! С недавним обзором генеративно-состязательных сетей!

      

Введение

Генеративно-состязательные сети (GAN) — это класс генеративных моделей, построенных на теории игр. Типичная архитектура такой модели состоит из двух нейронных сетей — дискриминатора и генератора: генератор преобразует входной шум в потенциально многомерные данные, дискриминатор оценивает, происходят ли сгенерированные данные из исходного распределения. На основе результатов генератор учится генерировать выборки, похожие на исходный дистрибутив.

В некоторых областях, таких как компьютерное зрение [2] [3] [4] [5], временной синтез [6] [7] [8] [9], обработка естественного языка [10] [11] [12] [13] и т. д., GAN — это класс эффективных средств для создания разнообразных и реалистичных данных. Они принадлежат неявной модели [14]. Эти модели генерируют изображения путем выборки из изученного распределения и не представляют основное распределение выборок данных. По сравнению с другими явными генеративными моделями GAN имеют такие преимущества, как параллельная генерация, универсальное приближение, лучшее качество, четкая оценка плотности и понимание иерархии структуры выборки. Эти свойства способствовали широкой популярности GAN в сообществе глубокого обучения, особенно в области компьютерного зрения.

Несмотря на их успех, GAN по-прежнему трудно обучать. Каждый раз, когда какой-либо параметр сети (дискриминатор или генератор) обновляется, это приводит к нестабильности. Текущие исследования посвящены различным приложениям, таким как генерация изображений и видео [15] [16] [17], адаптация предметной области [3] [18] [19] [20], синтез речи [21] [22] [23], Semantic Image Editing [2] [24] и т. д.) в поисках [стабильной архитектуры, комбинаций потерь и гиперпараметров]. Хотя эти модели дали интересные результаты в конкретных приложениях, нет полного консенсуса или исследований, чтобы сослаться на то, какая GAN работает лучше. В этой статье мы стремимся облегчить вышеуказанные проблемы и сузить диапазон альтернативных GAN с помощью технической структуры.

Эта статья организована следующим образом:

Раздел 2 определяет общую структуру: наиболее часто используемые сетевые структуры, функции потерь, схемы регуляризации и дивергенции.

Раздел 3 посвящен проблемам, возникающим при обучении Ган,

В разделе 4 представлен обзор популярных функций потерь для GAN.

Раздел 5 сравнивает GAN на основе приложений, производительности и реализации.

Раздел 6 иллюстрирует использование фреймворка с примерами.

В разделе 7 освещаются масштабы будущих исследований и делаются выводы.

Раздел 6

Структура иллюстрируется использованием набора данных CIFAR-10 для создания изображений в качестве сценария приложения.использование. Учитывая, что приложение требует хорошего качества и разнообразия генерируемых. Без логической основы, которую проясняет эта статья, необходимо искать взрывное комбинаторное пространство. Например, для выполнения этой задачи может быть около 5000 потенциальных комбинаций GAN: на основе сетевой архитектуры, потерь, дисперсии и т. д. И с помощью этого фреймворка его можно сузить до 5-6 GAN-кандидатов. Это эквивалентно 1000-кратному сокращению пространства поиска. Чтобы сократить пространство комбинаторного поиска, задаются следующие четыре вопроса, а ответы получаются из таблиц 1-7.

1. Какую структуру сети используют дискриминатор и генератор?

В соответствии с таблицей 1 альтернативные схемы включают полносвязные, сверточные, деконволюционные сети или модификации DCGAN.

2. Какие функции потерь подходят?

Подробности исследования этого набора данных можно найти в подробном сравнении приложений, реализаций и производительности в таблицах 2–7. Поскольку эта прикладная задача требует разнообразия и хорошего качества, в таблице предлагаются модели WGAN-GP, LSGAN, RSGAN и SNGAN методом наименьших квадратов. LSGAN в сочетании с RSGAN может генерировать изображения более высокого качества. Регуляризованные модели, такие как чувствительные к потерям GAN и SNGAN, демонстрируют лучшую способность к обобщению.

3. Нужна ли GAN регуляризация? Если да, то какой работает?

Исследование в этой статье показывает, что штраф за градиент может улучшить качество изображения, но не стабилизировать обучение. Спектральная нормализация в вычислительном отношении более эффективна, чем штраф за градиент. [47] показали, что BN в генераторе может улучшить качество модели, в то время как его использование в дискриминаторе работает плохо.

4. Нужна ли GAN мера, отличная от расхождения KL? Если да, то какой из них наиболее подходит?

[48] ​​представил и опробовал различные модальности, включая GAN, Kullback-Leibler и Squared-Hellinger, все из которых могут генерировать одинаково реалистичные эффекты.

Таблицы 1-7 прилагаются следующим образом:

Comparison of various GANs


▲ Нажмите и удерживайте, чтобы следовать за мной~