Бумажные заметки StyleTransfer

Это первый день моего участия в ноябрьском испытании обновлений, подробности о мероприятии:Вызов последнего обновления 2021 г..

Rethinking and Improving the Robustness of Image Style Transfer

Motivation

Благодаря большому количеству экспериментов автор обнаружил, что в задаче переноса стиля эффект VGG лучше, чем у ResNet, Причина в том, что энтропия карты признаков, создаваемая остаточным соединением, слишком мала, что не способствует стилю. Поэтому автор предлагает расширенную энтропию на основе методов softmax. Было проверено, что этот метод по-прежнему эффективен для сетей со случайно инициализированными весами, что говорит о том, что структура сети, которую мы используем для извлечения признаков, более важна, чем использование изученных весов.

Introduction

На приведенном выше рисунке показано использование случайной инициализации или модели Vgg/ResNet, предварительно обученной на ImageNet для передачи стиля.Можно обнаружить, что эффект предварительной подготовки лучше, чем случайная инициализация, а эффект Vgg лучше, чем у Рез. Это также отправная точка автора, которая должна исследовать, почему ResNet работает лучше в качестве основы, чем Vgg, в задачах классификации и сегментации, но наоборот в передаче стиля.

Для подтверждения гипотезы авторы добавили следующие эксперименты:

(f) – Res после устранения остаточной связи, (g) –

Method

Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization

ICCV 2017

Abstract

Метод Gatys адаптируется ко многим стилям, но он слишком медленный; нейронная сеть с прямой связью работает быстро, но стиль фиксирован. Автор предлагает метод преобразования в реальном времени, который адаптируется к любому стилю, ядром является слой ALADIN (адаптивная нормализация контента), а скорость близка к методу прямой связи.

Related Work

Deep generative image modeling

VAE (автоматический вариационный кодировщик), модель AUTO_REGRESSE, GAN (генерировать антисеть), где GAN лучше

Background

Batch Normalization

BN упрощает обучение за счет нормализации статистики карты признаков и изначально использовался для ускорения обучения дискриминаторов, но также оказался полезным в генеративном моделировании изображений.Его статистические характеристики основаны на всей партии.

BN(x) = \gamma(\frac{x - \mu(x)}{\sigma(x)}) + \beta

в $\gamma$ и $\beta$ - аффинные параметры, полученные из данных, $\mu(x)$ и $\sigma(x)$ Каждый канал рассчитывается независимо, а N – это размер пакета. Конкретная формула выглядит следующим образом:

\mu_c(x) = \frac{1}{NHW}\sum^N_{n=1}\sum^H_{h=1}\sum^W_{w=1}x_{nchw}

\sigma_c(x) = \sqrt{\frac{1}{NHW}\sum^N_{n=1}\sum^H_{h=1}\sum^W_{w=1}(x_{nchw} - \mu_c(x))^2+\epsilon}

Instance Normalization

IN — это улучшение BN в передаче стиля, вычисляемое независимо для каждого канала и каждого семпла:

\mu_{nc}(x) = \frac{1}{HW}\sum^H_{h=1}\sum^W_{w=1}x_{nchw}

\sigma_{nc}(x) = \sqrt{\frac{1}{HW}\sum^H_{h=1}\sum^W_{w=1}(x_{nchw} - \mu_{nc}(x))^2+\epsilon}

Conditional Instance Normalization

Улучшенные параметры аффинного преобразования $\mu(x)$ и $\sigma(x)$ , вместо изучения только двух параметров, а двух групп. С помощью различных комбинаций параметров вы можете управлять созданием различных стилей. Но его недостаток в том, что количество дополнительных параметров линейно связано с количеством стилей, поэтому он не подходит для задач моделирования, требующих большого количества стилей.

Adaptive Instance Normalization

x — это ввод контента, y — ввод стиля, и они адаптивно связаны следующей формулой.

AdaIN(x,y) = \sigma(y)(\frac{x - \mu(x)}{\sigma(x)}) + \mu(y)

Experimental Setup

Achitecture

Кодер использует первые несколько слоев предварительно обученного VGG и после кодирования отправляет карты объектов контента и стиля в AdaIN для создания целевой карты объектов. Декодер инициализируется случайным образом и учится отображать карту целевых объектов обратно в пространство изображения во время обучения.

Traning

Функция потерь $L_{style}$ и $L_{content}$ Линейная взвешенная сумма , $L_{content}$ по-прежнему является евклидовым расстоянием, но $L_{content}$ Вместо матрицы Грамма, используемой Gatys, автор решил вычислить послойное среднее значение и разницу дисперсии между исходной картой стиля и сгенерированной картой в кодировщике:

L_s = \sum^L_{i = 1}\Vert{\mu(\phi_i(g(t)))-\mu(\phi_i(s))}\Vert_2 + \sum^L_{i = 1}\Vert{\sigma(\phi_i(g(t)))-\sigma(\phi_i(s))}\Vert_2