Это первый день моего участия в ноябрьском испытании обновлений, подробности о мероприятии:Вызов последнего обновления 2021 г..
Rethinking and Improving the Robustness of Image Style Transfer
Motivation
Благодаря большому количеству экспериментов автор обнаружил, что в задаче переноса стиля эффект VGG лучше, чем у ResNet, Причина в том, что энтропия карты признаков, создаваемая остаточным соединением, слишком мала, что не способствует стилю. Поэтому автор предлагает расширенную энтропию на основе методов softmax. Было проверено, что этот метод по-прежнему эффективен для сетей со случайно инициализированными весами, что говорит о том, что структура сети, которую мы используем для извлечения признаков, более важна, чем использование изученных весов.
Introduction
На приведенном выше рисунке показано использование случайной инициализации или модели Vgg/ResNet, предварительно обученной на ImageNet для передачи стиля.Можно обнаружить, что эффект предварительной подготовки лучше, чем случайная инициализация, а эффект Vgg лучше, чем у Рез. Это также отправная точка автора, которая должна исследовать, почему ResNet работает лучше в качестве основы, чем Vgg, в задачах классификации и сегментации, но наоборот в передаче стиля.
Для подтверждения гипотезы авторы добавили следующие эксперименты:
(f) – Res после устранения остаточной связи, (g) –
Method
Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization
ICCV 2017
Abstract
Метод Gatys адаптируется ко многим стилям, но он слишком медленный; нейронная сеть с прямой связью работает быстро, но стиль фиксирован. Автор предлагает метод преобразования в реальном времени, который адаптируется к любому стилю, ядром является слой ALADIN (адаптивная нормализация контента), а скорость близка к методу прямой связи.
Related Work
Deep generative image modeling
VAE (автоматический вариационный кодировщик), модель AUTO_REGRESSE, GAN (генерировать антисеть), где GAN лучше
Background
Batch Normalization
BN упрощает обучение за счет нормализации статистики карты признаков и изначально использовался для ускорения обучения дискриминаторов, но также оказался полезным в генеративном моделировании изображений.Его статистические характеристики основаны на всей партии.
ви- аффинные параметры, полученные из данных,иКаждый канал рассчитывается независимо, а N – это размер пакета. Конкретная формула выглядит следующим образом:
Instance Normalization
IN — это улучшение BN в передаче стиля, вычисляемое независимо для каждого канала и каждого семпла:
Conditional Instance Normalization
Улучшенные параметры аффинного преобразованияи, вместо изучения только двух параметров, а двух групп. С помощью различных комбинаций параметров вы можете управлять созданием различных стилей. Но его недостаток в том, что количество дополнительных параметров линейно связано с количеством стилей, поэтому он не подходит для задач моделирования, требующих большого количества стилей.
Adaptive Instance Normalization
x — это ввод контента, y — ввод стиля, и они адаптивно связаны следующей формулой.
Experimental Setup
Achitecture
Кодер использует первые несколько слоев предварительно обученного VGG и после кодирования отправляет карты объектов контента и стиля в AdaIN для создания целевой карты объектов. Декодер инициализируется случайным образом и учится отображать карту целевых объектов обратно в пространство изображения во время обучения.
Traning
Функция потерьиЛинейная взвешенная сумма ,по-прежнему является евклидовым расстоянием, ноВместо матрицы Грамма, используемой Gatys, автор решил вычислить послойное среднее значение и разницу дисперсии между исходной картой стиля и сгенерированной картой в кодировщике: