Документ NVIDIA: Создание HD-изображений с помощью GAN | ICLR 2018

искусственный интеллект алгоритм база данных

Хотя ICLR 2018 изменил публичное рецензирование на двойное слепое рецензирование, в котором рецензенты и авторы не знают друг друга, авторы статей по-прежнему могут продвигать свои статьи через другие общедоступные каналы. Специально для исследовательских институтов крупных компаний ранняя публикация своих статей может иметь дополнительный бонус, чем слепое рецензирование.Например, Lei Feng.com заметил, что сразу после крайнего срока подачи статей ICLR в прошлую пятницу NVIDIA опубликовала блог.Новый метод для создания уникальных лиц с помощью генеративно-состязательных сетей (GAN), и эта статья является одной из представленных NVIDIA в ICLR.

NVIDIA论文:用GAN生成高清图像 | ICLR 2018

Название диссертации: Прогрессивное развитие сетей GAN для повышения качества, стабильности и разнообразия

Аннотация: В этой статье мы описываем новый метод обучения для генеративно-состязательных сетей (GAN). Основная идея состоит в том, чтобы обучать генератор и дискриминатор прогрессивно: начиная с низкого разрешения, мы постепенно добавляем новые слои, добавляя более мелкие детали по ходу обучения. Это ускоряет обучение и повышает стабильность обучения, позволяя нам создавать изображения беспрецедентного качества, такие как изображения CelebA с базой данных лиц знаменитостей 1024x1024 пикселей, используемой многими алгоритмами для обучения) для создания наборов данных более высокой точности. Мы также предлагаем простой метод увеличения вариативности сгенерированных изображений и достижения рекордного начального балла 8,80 в неконтролируемом CIFAR10. Кроме того, мы опишем несколько деталей реализации, которые важны для подавления нездоровой конкуренции между генератором и дискриминатором. Наконец, мы предлагаем новую метрику для измерения результатов GAN как с точки зрения качества изображения, так и с точки зрения вариации. В качестве дополнительного вклада мы создали набор данных CelebA более высокого качества.

В документе NVIDIA сообщила, что метод создания новых выборок из распределений данных высокой размерности широко используется в области изображений, а основные алгоритмы включают модели авторегрессии, вариационные автоэнкодеры (VAE) и генеративно-состязательные сети (GAN). Все эти алгоритмы имеют свои сильные и слабые стороны: авторегрессионные модели (такие как PixelCNN) создают четкие изображения, но медленно оценивают их, а поскольку они напрямую моделируют условное распределение пикселей, базовое представление отсутствует. Это еще больше ограничивает его применимость; VAE легко обучаются, но часто дают размытые результаты; GAN могут генерировать четкие изображения, но только с небольшими изменениями в разрешении, а качество непостоянно; гибридные методы Преимущества трех вышеперечисленных методов могут быть объединены, но все же отстают ГАН в качестве изображения.

Основным методом улучшения NVIDIA является использование улучшенной потери Вассерштейна (для создания изображений с помощью Wasserstein GAN, пожалуйста, обратитесь к предыдущей статье Lei Feng.com:"Удивительный Вассерштейн ГАН"), а также пытаясь использовать метод наименьших квадратов потерь. Сложность генерации изображений высокого разрешения заключается в том, что в этом процессе будет сильно усиливаться проблема градиента, а из-за ограничений памяти большие изображения приходится разбивать на несколько блоков для отдельного расчета, что влияет на стабильность обучения. Подход NVIDIA заключается в том, чтобы начать с простых изображений с низким разрешением и постепенно добавлять уровни детализации с более высоким разрешением во время обучения, что значительно ускоряет обучение и улучшает стабильность с высоким разрешением.

Давайте посмотрим на эффект генерации изображения.

На картинке ниже показан эффект 8X8 после более чем 2 часов тренировок.

NVIDIA论文:用GAN生成高清图像 | ICLR 2018

После более чем 11 часов тренировок разрешение сгенерированного изображения увеличено до 32х32, и уже можно разглядеть контур лица;

NVIDIA论文:用GAN生成高清图像 | ICLR 2018

Изображение в разрешении 1024x1024 после 16 дней обучения:

NVIDIA论文:用GAN生成高清图像 | ICLR 2018

NVIDIA также специально подготовила короткое видео об этой работе, которое более наглядно объясняет специфический эффект этого алгоритма:


Согласно Lei Feng.com (публичный номер: Lei Feng.com), этот метод также можно использовать для создания очень подробных фотографий объектов и ландшафтов, а также для изменения эффектов в программном обеспечении для обработки изображений.

Оригинальную статью Lei Feng.com запрещается перепечатывать без разрешения. Подробнее см.Уведомление о перепечатке.