2021 Semantic Hierarchy Emerges in Deep Generative Representations for Scene Synthesis
задний план
Во-первых, это фон, фон в том, что GAN выделяется в области синтеза изображений.
мотивация
Мотивация в том, что сейчас больше пояснительной работы по обнаружению целей, а по генеративной модели GAN еще меньше.
Цель
Целью исследования по-прежнему является изучение влияния скрытого кода на свойства. В этой статье рассматривается StyleGan, и каждый уровень в сети будет вводить свой скрытый код, который также называется послойным.
В этой статье мы хотим изучить типы атрибутов, на которые влияют различные уровни скрытого кода, такие как макет (шаблон), категория (тип), цвет (цвет) и другие атрибуты различных шаблонов; если вы можете изучить иерархические отношения, такие как рисунок модели, тоже рисуем сначала Layout, потом рисуем объекты, свет...потом похоже на людей!
метод
Для измерения атрибутов двух сцен, спальни и гостиной, некоторые общие атрибуты будут разделены разными классификаторами.В макете оценки сначала будет извлечена линия стены, чтобы получить контур, а объект оценки будет сегментирован через сцена.
Найдите направление в скрытом пространстве. Конкретный метод SVM, В скрытом пространстве GAN каждая точка соответствует картинке в пространстве изображений, а также соответствует разнообразной семантике в скрытом пространстве. Образец После определенного количества изображений используйте предварительно обученные классификаторы, чтобы получить их соответствующую различную семантику (для определенного атрибута, к какому типу значения принадлежит изображение, представленное каждой точкой), а затем для определенного атрибута используйте SVM Learn. гиперплоскость в скрытом пространстве и получить опорный вектор n (который может разделять выборки, принадлежащие разным классам для этого признака), n как наше направление, что почти то же самое, что метод InterfaceGAN, но объект, обрабатываемый InterfaceGAN, является лицом, и лицо легко определить, и в этой статье речь идет о сценах, и изменения в сценах великолепны.
После получения семантического вектора используем Re-score для измерения семантической направленности, то есть смотрим степень смыслового изменения картинки до и после редактирования, формула ниже, К - количество отсчетов
После проверки у статьи есть три метода редактирования: первый очень простой — вдавить в семантическом направлении в скрытом пространстве, второй — вставить сумму двух семантических направлений, а третий — втолкнуть добавить немного случайного возмущения
эксперимент
Экспериментальное исследование представляет собой представление y на разных уровнях, как показано на следующем рисунке:
2020 Interpreting the Latent Space of GANs for Semantic Face Editing
задний план
- До сих пор отсутствует понимание того, как GAN отображают скрытые коды в изображения.
- Как семантика генерируется и организуется в скрытом пространстве? Как эти свойства были переплетены раньше?
мотивация
- Продолжайте исследовать, как одна или несколько семантик кодируются в скрытом пространстве.
- Дальше решаем задачу распутывания.
- Получите лучшие эффекты редактирования для свойств изображения.
метод
semantics in the latent space
Учитывая GAN, генератор можно определить как
определить функцию оценки
Как видно из предыдущей статьи, в латентном пространстве в качестве границы раздела находится гиперплоскость (по одной на каждый тип атрибута), а атрибуты, соответствующие латентным кодам на одной стороне плоскости, одинаковы (например , оба пола — мужчины), и пересечение гиперплоскости приведет к Измене.
Задайте единичный нормальный вектор гиперплоскости
Для множественной семантики:
manipulation in the latent space
Как манипулировать свойствами сгенерированного изображения?
одиночная семантическая модификация:Мы используем
изменение состояния:
Поскольку между различными атрибутами нет полной развязки, другие атрибуты могут модифицироваться одновременно только в определенном семантическом направлении.
Поэтому предлагается способ модификации: в случае сохранения одной семантики (n2) без изменений изменить другую семантику (n1):
эксперимент
latent space separation
Узнайте, можно ли использовать гиперплоскость для различения свойств. На основе контролируемого метода 5 независимых SVM обучаются для таких атрибутов, как поза, улыбка, возраст, пол, глаза и т. д. (т. е. нахождение гиперплоскости), а затем оцениваются. Результат - лучшее различие.
latent space manipulation
Убедитесь, что семантика работает.
conditional manipulation
Исследуйте развязку. использовать
Улыбка и поза оказываются почти ортогональными другим атрибутам. Однако пол, возраст и очки сильно коррелировали. Это наблюдение отражает корреляции атрибутов в обучающем наборе данных. В какой-то степени пожилые мужчины здесь чаще носят очки. GAN также учитывают эту функцию, когда учатся создавать реалистичные наблюдения.
2020 Unsupervised discovery of interpretable directions in the GAN latent space
фоновая мотивация
- В скрытом пространстве GAN есть значимые направления, которые мы должны объяснить.
- Это часто делалось под наблюдением или самоконтролем, что ограничивало рамки нашего исследования.
Цель
- Предложите неконтролируемый способ интерпретации направлений в скрытом пространстве.
- Найдите больше направлений, чтобы контролировать больше атрибутов.
Method
федеративное обучение
- матрица
,в равно размерности скрытого пространства, равно количеству направлений, которые мы хотим попытаться обнаружить (в зависимости от модели сети и набора данных). представляет собой однократный вектор Первый Размер 1, умножьте матрицу , это эквивалентно выбору k-е направление в . Мера того, насколько мы меняемся в этом направлении.
- рефакторинг
, входом которого является пара изображений и . вывести скалярную пару , то есть найти ранее выбранное направление , и величина изменения.
оптимизировать цель:
Почему этот подход работает?
- Минимизация k, то есть попытка определить конкретное направление в A, позволяет легче отличить соответствующие переходы изображения друг от друга. Это можно рассматривать как процесс развязки.
- Минимизируя ε, мы заставляем движение в этом направлении быть не скачкообразным, а непрерывным.
Ограничения на матрицу A
- Все столбцы имеют векторы по модулю 1
- Все столбцы ортогональны
В экспериментах было замечено, что оба эффекта были хорошими, и были обнаружены некоторые схожие направления интерпретации. Обычно чаще используется столбец единичных векторов, потому что можно найти больше направлений. Но в некоторых наборах данных второй может раскрыть некоторые более интересные детали.
эксперимент
Измерение способности развязки
Видно, что по мере постепенного приближения количества шагов обучения движение в этом направлении уже не меняет тип цифр, а только меняет толщину цифр, что в полной мере показывает, что мы развязали признаки типа цифры и числа толщина.
2019 GANalyze Toward Visual Definitions of Cognitive Image Properties
задний план
- Некоторые свойства, такие как «память», еще не имеют четкого визуального определения.
- Какие атрибуты делают этот образ более запоминающимся?
- Как управлять этими свойствами?
Цель
- Найдите наглядное определение таких трудно поддающихся определению атрибутов, как «память».
- Реализуйте непрерывный контроль над такими свойствами.
метод
формула:
Функция оценки оценки памяти
эксперимент
- Исследуйте, какие свойства влияют на запоминаемость, изменяя α в найденных направлениях.
2020 О «УПРАВЛЯЕМОСТИ» ГЕНЕРАТИВНО-ПРОТИВОПОЛОЖНЫХ СЕТЕЙ
задний план
- Есть управляемость в генерации GAN
- Степень вариации атрибутов сцены сгенерированных изображений ограничена распределением обучающих данных.
Цель
- Самоконтролируемый способ реализации скрытого обхода кода для достижения преобразования атрибутов (движение камеры и изменение цвета)
- Рассмотрим два блуждания: линейное и нелинейное.
- Оценить изменчивость по отношению к наборам данных и количественно определить степень изменчивости
метод
Нелинейная операция соответствует нелинейной функции z
преобразование квантования
Для некоторых свойств была проведена количественная оценка оценки.
- Для преобразования цвета индекс квантования представляет собой изменение значения пикселя на 100 пикселей до и после случайного извлечения преобразования, нормализованного до 1.
- Для преобразования масштабирования и сдвига количественный показатель заключается в использовании сети обнаружения цели для вывода центрального положения объекта, разделенного на ширину и высоту поля для нормализации.
β-VAE: LEARNING BASIC VISUAL CONCEPTS WITH A CONSTRAINED VARIATIONAL FRAMEWORK
фоновая мотивация
- Распутанное представление может улучшить производительность функций, таких как последующие свойства управления.
- Архитектура на основе VAE, как сбалансировать потери при реконструкции и потери при регуляризации?
целевой вклад
- Предложите бета-VAE для улучшения разделения скрытого представления
метод
Нижняя граница VAE состоит из реконструктивной потери и регулярной потери. Добавлен один к термину KL
ВАЭ:
β-ВАЭ:
Конкретно:
Нам нужны скрытые переменные
distanglement metric
Для определенного фактора фиксирован, а затем остальные факторы случайны, получить некоторые представления x и x', всего L пар, получить соответствующие z и z', вычислить разницу абсолютного значения между каждой парой z и z', и закинуть их в классификацию. В устройстве в идеале должно быть одно измерение по z, разность абсолютного значения которого равна 0, тогда оно ему соответствует, и таким образом получается распутывание.
Соответствующий процесс показан на рисунке ниже. Обучите классификатор, чтобы найти направление, абсолютное значение которого близко к 0. Если он найден, это означает, что связь низкая.После обучения используйте его для измерения текущего