2021 Semantic Hierarchy Emerges in Deep Generative Representations for Scene Synthesis
задний план
Во-первых, это фон, фон в том, что GAN выделяется в области синтеза изображений.
мотивация
Мотивация в том, что сейчас больше пояснительной работы по обнаружению целей, а по генеративной модели GAN еще меньше.
Цель
Целью исследования по-прежнему является изучение влияния скрытого кода на свойства. В этой статье рассматривается StyleGan, и каждый уровень в сети будет вводить свой скрытый код, который также называется послойным.
В этой статье мы хотим изучить типы атрибутов, на которые влияют различные уровни скрытого кода, такие как макет (шаблон), категория (тип), цвет (цвет) и другие атрибуты различных шаблонов; если вы можете изучить иерархические отношения, такие как рисунок модели, тоже рисуем сначала Layout, потом рисуем объекты, свет...потом похоже на людей!
метод
Для измерения атрибутов двух сцен, спальни и гостиной, некоторые общие атрибуты будут разделены разными классификаторами.В макете оценки сначала будет извлечена линия стены, чтобы получить контур, а объект оценки будет сегментирован через сцена.
Найдите направление в скрытом пространстве. Конкретный метод SVM, В скрытом пространстве GAN каждая точка соответствует картинке в пространстве изображений, а также соответствует разнообразной семантике в скрытом пространстве. Образец После определенного количества изображений используйте предварительно обученные классификаторы, чтобы получить их соответствующую различную семантику (для определенного атрибута, к какому типу значения принадлежит изображение, представленное каждой точкой), а затем для определенного атрибута используйте SVM Learn. гиперплоскость в скрытом пространстве и получить опорный вектор n (который может разделять выборки, принадлежащие разным классам для этого признака), n как наше направление, что почти то же самое, что метод InterfaceGAN, но объект, обрабатываемый InterfaceGAN, является лицом, и лицо легко определить, и в этой статье речь идет о сценах, и изменения в сценах великолепны.
После получения семантического вектора используем Re-score для измерения семантической направленности, то есть смотрим степень смыслового изменения картинки до и после редактирования, формула ниже, К - количество отсчетов
После проверки у статьи есть три метода редактирования: первый очень простой — вдавить в семантическом направлении в скрытом пространстве, второй — вставить сумму двух семантических направлений, а третий — втолкнуть добавить немного случайного возмущения
эксперимент
Экспериментальное исследование представляет собой представление y на разных уровнях, как показано на следующем рисунке:
2020 Interpreting the Latent Space of GANs for Semantic Face Editing
задний план
- До сих пор отсутствует понимание того, как GAN отображают скрытые коды в изображения.
- Как семантика генерируется и организуется в скрытом пространстве? Как эти свойства были переплетены раньше?
мотивация
- Продолжайте исследовать, как одна или несколько семантик кодируются в скрытом пространстве.
- Дальше решаем задачу распутывания.
- Получите лучшие эффекты редактирования для свойств изображения.
метод
semantics in the latent space
Учитывая GAN, генератор можно определить как. впредставляет d-мерное скрытое пространство,представляет пространство изображения, где каждый образецВсе содержат семантику.
определить функцию оценки,Представляет семантическое пространство с m-мерными семантическими показателями. Таксвязанный со скрытым пространствоми смысловое пространство.
Как видно из предыдущей статьи, в латентном пространстве в качестве границы раздела находится гиперплоскость (по одной на каждый тип атрибута), а атрибуты, соответствующие латентным кодам на одной стороне плоскости, одинаковы (например , оба пола — мужчины), и пересечение гиперплоскости приведет к Измене.
Задайте единичный нормальный вектор гиперплоскости, определяя выборкуРасстояние «расстояние» до этой гиперплоскости равно. Измените размер этого расстояния, значение семантического атрибута будет изменено, и когда положительные и отрицательные значения перевернуты, атрибут также перевернется (от мужчины к женщине), поэтому мы также можем линейно выразить отношение между расстоянием и семантическая оценка следующим образом:.
Для множественной семантики:.,Представляет все единичные векторы нормалей, то есть направление, которое мы ищем,Распределение, мы вычисляем среднее значение и ковариацию семантической оценки s как:
, представляет собой многомерное нормальное распределение,Семантика распутывается только тогда, когда диагональная матрица, т.е.также является ортогональным. И наоборот, вы можете использоватьдля измерения степени запутанности между семантикой i и семантикой j.
manipulation in the latent space
Как манипулировать свойствами сгенерированного изображения?
одиночная семантическая модификация:Мы используемредактировать,, синтетический результат семантически более положительный (пожилые люди старше), и наоборот (пожилые люди моложе). Отредактированная партитура становится.
изменение состояния:
Поскольку между различными атрибутами нет полной развязки, другие атрибуты могут модифицироваться одновременно только в определенном семантическом направлении.
Поэтому предлагается способ модификации: в случае сохранения одной семантики (n2) без изменений изменить другую семантику (n1):
эксперимент
latent space separation
Узнайте, можно ли использовать гиперплоскость для различения свойств. На основе контролируемого метода 5 независимых SVM обучаются для таких атрибутов, как поза, улыбка, возраст, пол, глаза и т. д. (т. е. нахождение гиперплоскости), а затем оцениваются. Результат - лучшее различие.
latent space manipulation
Убедитесь, что семантика работает.
conditional manipulation
Исследуйте развязку. использовать,Находить:
Улыбка и поза оказываются почти ортогональными другим атрибутам. Однако пол, возраст и очки сильно коррелировали. Это наблюдение отражает корреляции атрибутов в обучающем наборе данных. В какой-то степени пожилые мужчины здесь чаще носят очки. GAN также учитывают эту функцию, когда учатся создавать реалистичные наблюдения.
2020 Unsupervised discovery of interpretable directions in the GAN latent space
фоновая мотивация
- В скрытом пространстве GAN есть значимые направления, которые мы должны объяснить.
- Это часто делалось под наблюдением или самоконтролем, что ограничивало рамки нашего исследования.
Цель
- Предложите неконтролируемый способ интерпретации направлений в скрытом пространстве.
- Найдите больше направлений, чтобы контролировать больше атрибутов.
Method
федеративное обучениеи,фиксированный.
- матрица,вравно размерности скрытого пространства,равно количеству направлений, которые мы хотим попытаться обнаружить (в зависимости от модели сети и набора данных).представляет собой однократный векторПервыйРазмер 1, умножьте матрицу, это эквивалентно выборуk-е направление в .Мера того, насколько мы меняемся в этом направлении.
- рефакторинг, входом которого является пара изображенийи.вывести скалярную пару, то есть найти ранее выбранное направление, и величина изменения.
оптимизировать цель:
Почему этот подход работает?
- Минимизация k, то есть попытка определить конкретное направление в A, позволяет легче отличить соответствующие переходы изображения друг от друга. Это можно рассматривать как процесс развязки.
- Минимизируя ε, мы заставляем движение в этом направлении быть не скачкообразным, а непрерывным.
Ограничения на матрицу A
- Все столбцы имеют векторы по модулю 1
- Все столбцы ортогональны
В экспериментах было замечено, что оба эффекта были хорошими, и были обнаружены некоторые схожие направления интерпретации. Обычно чаще используется столбец единичных векторов, потому что можно найти больше направлений. Но в некоторых наборах данных второй может раскрыть некоторые более интересные детали.
эксперимент
Измерение способности развязки
Видно, что по мере постепенного приближения количества шагов обучения движение в этом направлении уже не меняет тип цифр, а только меняет толщину цифр, что в полной мере показывает, что мы развязали признаки типа цифры и числа толщина.
2019 GANalyze Toward Visual Definitions of Cognitive Image Properties
задний план
- Некоторые свойства, такие как «память», еще не имеют четкого визуального определения.
- Какие атрибуты делают этот образ более запоминающимся?
- Как управлять этими свойствами?
Цель
- Найдите наглядное определение таких трудно поддающихся определению атрибутов, как «память».
- Реализуйте непрерывный контроль над такими свойствами.
метод
формула:
Функция оценки оценки памяти, реализованный с помощью MemNet.
эксперимент
- Исследуйте, какие свойства влияют на запоминаемость, изменяя α в найденных направлениях.
2020 О «УПРАВЛЯЕМОСТИ» ГЕНЕРАТИВНО-ПРОТИВОПОЛОЖНЫХ СЕТЕЙ
задний план
- Есть управляемость в генерации GAN
- Степень вариации атрибутов сцены сгенерированных изображений ограничена распределением обучающих данных.
Цель
- Самоконтролируемый способ реализации скрытого обхода кода для достижения преобразования атрибутов (движение камеры и изменение цвета)
- Рассмотрим два блуждания: линейное и нелинейное.
- Оценить изменчивость по отношению к наборам данных и количественно определить степень изменчивости
метод
- операция преобразования сгенерированного изображения,параметр внешней подстройки,является обучаемым параметром, а операция, предполагаемая этой формулой, является линейной операцией.
Нелинейная операция соответствует нелинейной функции z,однаждыПредставляет редактирование изображения, рекурсивное преобразование n раз — это преобразование за n шагов. где n представляет n-й шаг,представляет длину шага,является рекурсивной функцией n раз. Давайте посмотрим, как рекурсия может достичь оптимальности несколько раз.
преобразование квантования
Для некоторых свойств была проведена количественная оценка оценки.
- Для преобразования цвета индекс квантования представляет собой изменение значения пикселя на 100 пикселей до и после случайного извлечения преобразования, нормализованного до 1.
- Для преобразования масштабирования и сдвига количественный показатель заключается в использовании сети обнаружения цели для вывода центрального положения объекта, разделенного на ширину и высоту поля для нормализации.
β-VAE: LEARNING BASIC VISUAL CONCEPTS WITH A CONSTRAINED VARIATIONAL FRAMEWORK
фоновая мотивация
- Распутанное представление может улучшить производительность функций, таких как последующие свойства управления.
- Архитектура на основе VAE, как сбалансировать потери при реконструкции и потери при регуляризации?
целевой вклад
- Предложите бета-VAE для улучшения разделения скрытого представления
метод
Нижняя граница VAE состоит из реконструктивной потери и регулярной потери. Добавлен один к термину KLГиперпараметры используются для управления пропорцией этих двух потерь в процессе оптимизации. (Примечание: KL используется дляраспределение близко к стандартному нормальному распределению)
ВАЭ:
β-ВАЭ:
Конкретно:
Нам нужны скрытые переменныеВы можете узнать информацию о независимых факторах (то есть несвязанных). Поскольку уменьшение KL приведет к плохой способности к реконструкции, нецелесообразно использовать исходную нижнюю границу в качестве метода оценки.В этой статье предлагается метод метрики оценки распутывания на основе классификатора (используется для поиска подходящего значения бета).
distanglement metric
Для определенного фактора фиксирован, а затем остальные факторы случайны, получить некоторые представления x и x', всего L пар, получить соответствующие z и z', вычислить разницу абсолютного значения между каждой парой z и z', и закинуть их в классификацию. В устройстве в идеале должно быть одно измерение по z, разность абсолютного значения которого равна 0, тогда оно ему соответствует, и таким образом получается распутывание.
Соответствующий процесс показан на рисунке ниже. Обучите классификатор, чтобы найти направление, абсолютное значение которого близко к 0. Если он найден, это означает, что связь низкая.После обучения используйте его для измерения текущегоХорошо ли связан следующий фактор.