2021 Semantic Hierarchy Emerges in Deep Generative Representations for Scene Synthesis

задний план

Во-первых, это фон, фон в том, что GAN выделяется в области синтеза изображений.

мотивация

Мотивация в том, что сейчас больше пояснительной работы по обнаружению целей, а по генеративной модели GAN еще меньше.

Цель

Целью исследования по-прежнему является изучение влияния скрытого кода на свойства. В этой статье рассматривается StyleGan, и каждый уровень в сети будет вводить свой скрытый код, который также называется послойным.

1629446173(1).png

В этой статье мы хотим изучить типы атрибутов, на которые влияют различные уровни скрытого кода, такие как макет (шаблон), категория (тип), цвет (цвет) и другие атрибуты различных шаблонов; если вы можете изучить иерархические отношения, такие как рисунок модели, тоже рисуем сначала Layout, потом рисуем объекты, свет...потом похоже на людей!

1629446452(1).png

метод

Для измерения атрибутов двух сцен, спальни и гостиной, некоторые общие атрибуты будут разделены разными классификаторами.В макете оценки сначала будет извлечена линия стены, чтобы получить контур, а объект оценки будет сегментирован через сцена.

Найдите направление в скрытом пространстве. Конкретный метод SVM, В скрытом пространстве GAN каждая точка соответствует картинке в пространстве изображений, а также соответствует разнообразной семантике в скрытом пространстве. Образец После определенного количества изображений используйте предварительно обученные классификаторы, чтобы получить их соответствующую различную семантику (для определенного атрибута, к какому типу значения принадлежит изображение, представленное каждой точкой), а затем для определенного атрибута используйте SVM Learn. гиперплоскость в скрытом пространстве и получить опорный вектор n (который может разделять выборки, принадлежащие разным классам для этого признака), n как наше направление, что почти то же самое, что метод InterfaceGAN, но объект, обрабатываемый InterfaceGAN, является лицом, и лицо легко определить, и в этой статье речь идет о сценах, и изменения в сценах великолепны.

После получения семантического вектора используем Re-score для измерения семантической направленности, то есть смотрим степень смыслового изменения картинки до и после редактирования, формула ниже, К - количество отсчетов

После проверки у статьи есть три метода редактирования: первый очень простой — вдавить в семантическом направлении в скрытом пространстве, второй — вставить сумму двух семантических направлений, а третий — втолкнуть добавить немного случайного возмущения

эксперимент

Экспериментальное исследование представляет собой представление y на разных уровнях, как показано на следующем рисунке:

2020 Interpreting the Latent Space of GANs for Semantic Face Editing

задний план

До сих пор отсутствует понимание того, как GAN отображают скрытые коды в изображения.
Как семантика генерируется и организуется в скрытом пространстве? Как эти свойства были переплетены раньше?

мотивация

Продолжайте исследовать, как одна или несколько семантик кодируются в скрытом пространстве.
Дальше решаем задачу распутывания.
Получите лучшие эффекты редактирования для свойств изображения.

метод

semantics in the latent space

Учитывая GAN, генератор можно определить как $г: Z → X$ . в $Z \subseteq R^d$ представляет d-мерное скрытое пространство, $X$ представляет пространство изображения, где каждый образец $x$ Все содержат семантику.
определить функцию оценки $f_S: X → S$ , $S \subseteq R^m$ Представляет семантическое пространство с m-мерными семантическими показателями. Так $s = f_S(g(z))$ связанный со скрытым пространством $Z$ и смысловое пространство $S$ .

Как видно из предыдущей статьи, в латентном пространстве в качестве границы раздела находится гиперплоскость (по одной на каждый тип атрибута), а атрибуты, соответствующие латентным кодам на одной стороне плоскости, одинаковы (например , оба пола — мужчины), и пересечение гиперплоскости приведет к Измене.
Задайте единичный нормальный вектор гиперплоскости $n ∈ R ^ d$ , определяя выборку $z$ Расстояние «расстояние» до этой гиперплоскости равно $d(n,z)=n^Tz$ . Измените размер этого расстояния, значение семантического атрибута будет изменено, и когда положительные и отрицательные значения перевернуты, атрибут также перевернется (от мужчины к женщине), поэтому мы также можем линейно выразить отношение между расстоянием и семантическая оценка следующим образом: $f(g(z))=λd(n,z)$ .

Для множественной семантики: $S\equiv f_S(g(z)) = \Lambda N^Tz$ . $\Lambda = diag(λ_1,...,λ_m)$ , $N=[n_1,...,n_m]$ Представляет все единичные векторы нормалей, то есть направление, которое мы ищем, $z$ Распределение $N(0, I_d)$ , мы вычисляем среднее значение и ковариацию семантической оценки s как:

$s \sim N(0, \Sigma_s)$ , представляет собой многомерное нормальное распределение, $\Sigma_s$ Семантика распутывается только тогда, когда диагональная матрица, т.е. ${n_1,...,n_m}$ также является ортогональным. И наоборот, вы можете использовать $n_i^Tn_j$ для измерения степени запутанности между семантикой i и семантикой j.

manipulation in the latent space

Как манипулировать свойствами сгенерированного изображения?
одиночная семантическая модификация:Мы используем $z_{edit} = z + αn$ редактировать, $α > 0$ , синтетический результат семантически более положительный (пожилые люди старше), и наоборот (пожилые люди моложе). Отредактированная партитура становится $f(g(z_{edit})) = f(g(z)) + λα$ .

изменение состояния:
Поскольку между различными атрибутами нет полной развязки, другие атрибуты могут модифицироваться одновременно только в определенном семантическом направлении.
Поэтому предлагается способ модификации: в случае сохранения одной семантики (n2) без изменений изменить другую семантику (n1):

эксперимент

latent space separation

Узнайте, можно ли использовать гиперплоскость для различения свойств. На основе контролируемого метода 5 независимых SVM обучаются для таких атрибутов, как поза, улыбка, возраст, пол, глаза и т. д. (т. е. нахождение гиперплоскости), а затем оцениваются. Результат - лучшее различие.

latent space manipulation

Убедитесь, что семантика работает.

conditional manipulation

Исследуйте развязку. использовать $cos(n_1,n_2)=n_1^Tn_2$ ,Находить:

Улыбка и поза оказываются почти ортогональными другим атрибутам. Однако пол, возраст и очки сильно коррелировали. Это наблюдение отражает корреляции атрибутов в обучающем наборе данных. В какой-то степени пожилые мужчины здесь чаще носят очки. GAN также учитывают эту функцию, когда учатся создавать реалистичные наблюдения.

2020 Unsupervised discovery of interpretable directions in the GAN latent space

фоновая мотивация

В скрытом пространстве GAN есть значимые направления, которые мы должны объяснить.
Это часто делалось под наблюдением или самоконтролем, что ограничивало рамки нашего исследования.

Цель

Предложите неконтролируемый способ интерпретации направлений в скрытом пространстве.
Найдите больше направлений, чтобы контролировать больше атрибутов.

Method

федеративное обучение $A$ и $R$ ,фиксированный $G$ .

матрица $А ∈ R^{d×k}$ ,в $d$ равно размерности скрытого пространства, $k$ равно количеству направлений, которые мы хотим попытаться обнаружить (в зависимости от модели сети и набора данных). $k$ представляет собой однократный вектор $e^k$ Первый $k$ Размер 1, умножьте матрицу $A$ , это эквивалентно выбору $A$ k-е направление в . $ε$ Мера того, насколько мы меняемся в этом направлении.

z' = z + A(εe_k)

рефакторинг $R$ , входом которого является пара изображений $G(z)$ и $G(z + A(εe_k))$ . $R$ вывести скалярную пару $(k', ε')$ , то есть найти ранее выбранное направление $k$ , и величина изменения.

оптимизировать цель:

Почему этот подход работает?

Минимизация k, то есть попытка определить конкретное направление в A, позволяет легче отличить соответствующие переходы изображения друг от друга. Это можно рассматривать как процесс развязки.
Минимизируя ε, мы заставляем движение в этом направлении быть не скачкообразным, а непрерывным.

Ограничения на матрицу A

Все столбцы имеют векторы по модулю 1
Все столбцы ортогональны

В экспериментах было замечено, что оба эффекта были хорошими, и были обнаружены некоторые схожие направления интерпретации. Обычно чаще используется столбец единичных векторов, потому что можно найти больше направлений. Но в некоторых наборах данных второй может раскрыть некоторые более интересные детали.

эксперимент

Измерение способности развязки

Видно, что по мере постепенного приближения количества шагов обучения движение в этом направлении уже не меняет тип цифр, а только меняет толщину цифр, что в полной мере показывает, что мы развязали признаки типа цифры и числа толщина.

2019 GANalyze Toward Visual Definitions of Cognitive Image Properties

задний план

Некоторые свойства, такие как «память», еще не имеют четкого визуального определения.
Какие атрибуты делают этот образ более запоминающимся?
Как управлять этими свойствами?

Цель

Найдите наглядное определение таких трудно поддающихся определению атрибутов, как «память».
Реализуйте непрерывный контроль над такими свойствами.

метод

формула:

L(θ) =E_{z,y,α}[(A(G(T_θ(z, α), y))-(A(G(z,y))+α))^2]

T(z,α)=z+αθ

Функция оценки оценки памяти $A$ , реализованный с помощью MemNet.

эксперимент

Исследуйте, какие свойства влияют на запоминаемость, изменяя α в найденных направлениях.

2020 О «УПРАВЛЯЕМОСТИ» ГЕНЕРАТИВНО-ПРОТИВОПОЛОЖНЫХ СЕТЕЙ

задний план

Есть управляемость в генерации GAN
Степень вариации атрибутов сцены сгенерированных изображений ограничена распределением обучающих данных.

Цель

Самоконтролируемый способ реализации скрытого обхода кода для достижения преобразования атрибутов (движение камеры и изменение цвета)
Рассмотрим два блуждания: линейное и нелинейное.
Оценить изменчивость по отношению к наборам данных и количественно определить степень изменчивости

метод

w^* = {\underset {w}{\operatorname {arg\,min} }}\,E_{z,α}[L(G(z+αw), edit(G(z), α)]

$edit$ - операция преобразования сгенерированного изображения, $α$ параметр внешней подстройки, $ю$ является обучаемым параметром, а операция, предполагаемая этой формулой, является линейной операцией.

L = E_{z,n}[||G(f^n(z))-edit(G(z), nϵ))||]

Нелинейная операция соответствует нелинейной функции z $f(z)$ ,однажды $f^*(z)$ Представляет редактирование изображения $edit(G(z),ϵ)$ , рекурсивное преобразование n раз — это преобразование за n шагов. где n представляет n-й шаг, $ϵ$ представляет длину шага, $f^n(z)$ является рекурсивной функцией n раз. Давайте посмотрим, как рекурсия может достичь оптимальности несколько раз.

преобразование квантования

Для некоторых свойств была проведена количественная оценка оценки.

Для преобразования цвета индекс квантования представляет собой изменение значения пикселя на 100 пикселей до и после случайного извлечения преобразования, нормализованного до 1.
Для преобразования масштабирования и сдвига количественный показатель заключается в использовании сети обнаружения цели для вывода центрального положения объекта, разделенного на ширину и высоту поля для нормализации.

β-VAE: LEARNING BASIC VISUAL CONCEPTS WITH A CONSTRAINED VARIATIONAL FRAMEWORK

фоновая мотивация

Распутанное представление может улучшить производительность функций, таких как последующие свойства управления.
Архитектура на основе VAE, как сбалансировать потери при реконструкции и потери при регуляризации?

целевой вклад

Предложите бета-VAE для улучшения разделения скрытого представления

метод

Нижняя граница VAE состоит из реконструктивной потери и регулярной потери. Добавлен один к термину KL $β$ Гиперпараметры используются для управления пропорцией этих двух потерь в процессе оптимизации. (Примечание: KL используется для $p(z|x)$ распределение близко к стандартному нормальному распределению)
ВАЭ: $L = E_{q(z|x)}[logp(x|z)] - KL[q(z|x)||p(z)]$
β-ВАЭ: $L = E_{q(z|x)}[logp(x|z)]-β*KL[q(z|x)||p(z)]$
Конкретно:
Нам нужны скрытые переменные $z$ Вы можете узнать информацию о независимых факторах (то есть несвязанных). Поскольку уменьшение KL приведет к плохой способности к реконструкции, нецелесообразно использовать исходную нижнюю границу в качестве метода оценки.В этой статье предлагается метод метрики оценки распутывания на основе классификатора (используется для поиска подходящего значения бета).

distanglement metric

Для определенного фактора фиксирован, а затем остальные факторы случайны, получить некоторые представления x и x', всего L пар, получить соответствующие z и z', вычислить разницу абсолютного значения между каждой парой z и z', и закинуть их в классификацию. В устройстве в идеале должно быть одно измерение по z, разность абсолютного значения которого равна 0, тогда оно ему соответствует, и таким образом получается распутывание.

Соответствующий процесс показан на рисунке ниже. Обучите классификатор, чтобы найти направление, абсолютное значение которого близко к 0. Если он найден, это означает, что связь низкая.После обучения используйте его для измерения текущего $β$ Хорошо ли связан следующий фактор.