Это 3-й день моего участия в ноябрьском испытании обновлений, узнайте подробности события:Вызов последнего обновления 2021 г..
theme: juejin
ICCV 2017
Abstract
Метод Gatys адаптируется ко многим стилям, но он слишком медленный; нейронная сеть с прямой связью работает быстро, но стиль фиксирован. Автор предлагает метод преобразования в реальном времени, который адаптируется к любому стилю, ядром является слой ALADIN (адаптивная нормализация контента), а скорость близка к методу прямой связи.
Related Work
Deep generative image modeling
VAE (автоматический вариационный кодировщик), модель авторегрессии (модель авторегрессии), GAN (генеративно-состязательная сеть), из которых GAN работает лучше всего
Background
Batch Normalization
BN упрощает обучение за счет нормализации статистики карты признаков и изначально использовался для ускорения обучения дискриминаторов, но также оказался полезным в генеративном моделировании изображений.Его статистические характеристики основаны на всей партии.
ви- аффинные параметры, полученные из данных,иКаждый канал рассчитывается независимо, а N – это размер пакета. Конкретная формула выглядит следующим образом:
Instance Normalization
IN — это улучшение BN в передаче стиля, вычисляемое независимо для каждого канала и каждого семпла:
Conditional Instance Normalization
Улучшенные параметры аффинного преобразованияи, вместо изучения только двух параметров, а двух групп. С помощью различных комбинаций параметров вы можете управлять созданием различных стилей. Но его недостаток в том, что количество дополнительных параметров линейно связано с количеством стилей, поэтому он не подходит для задач моделирования, требующих большого количества стилей.
Adaptive Instance Normalization
x — это ввод контента, y — ввод стиля, и они адаптивно связаны следующей формулой.
Experimental Setup
Achitecture
Кодер использует первые несколько слоев предварительно обученного VGG и после кодирования отправляет карты объектов контента и стиля в AdaIN для создания целевой карты объектов. Декодер инициализируется случайным образом и учится отображать карту целевых объектов обратно в пространство изображения во время обучения.
Traning
Функция потерьиЛинейная взвешенная сумма ,по-прежнему является евклидовым расстоянием, ноВместо матрицы Грамма, используемой Gatys, автор решил вычислить послойное среднее значение и разницу дисперсии между исходной картой стиля и сгенерированной картой в кодировщике: