Исследование семантической факторизации

искусственный интеллект

2021 Semantic Hierarchy Emerges in Deep Generative Representations for Scene Synthesis

задний план

Во-первых, это фон, фон в том, что GAN выделяется в области синтеза изображений.

мотивация

Мотивация в том, что сейчас больше пояснительной работы по обнаружению целей, а по генеративной модели GAN еще меньше.

Цель

Целью исследования по-прежнему является изучение влияния скрытого кода на свойства. В этой статье рассматривается StyleGan, и каждый уровень в сети будет вводить свой скрытый код, который также называется послойным.

1629446173(1).png

В этой статье мы хотим изучить типы атрибутов, на которые влияют различные уровни скрытого кода, такие как макет (шаблон), категория (тип), цвет (цвет) и другие атрибуты различных шаблонов; если вы можете изучить иерархические отношения, такие как рисунок модели, тоже рисуем сначала Layout, потом рисуем объекты, свет...потом похоже на людей!

1629446452(1).png

метод

Для измерения атрибутов двух сцен, спальни и гостиной, некоторые общие атрибуты будут разделены разными классификаторами.В макете оценки сначала будет извлечена линия стены, чтобы получить контур, а объект оценки будет сегментирован через сцена.

Найдите направление в скрытом пространстве. Конкретный метод SVM, В скрытом пространстве GAN каждая точка соответствует картинке в пространстве изображений, а также соответствует разнообразной семантике в скрытом пространстве. Образец После определенного количества изображений используйте предварительно обученные классификаторы, чтобы получить их соответствующую различную семантику (для определенного атрибута, к какому типу значения принадлежит изображение, представленное каждой точкой), а затем для определенного атрибута используйте SVM Learn. гиперплоскость в скрытом пространстве и получить опорный вектор n (который может разделять выборки, принадлежащие разным классам для этого признака), n как наше направление, что почти то же самое, что метод InterfaceGAN, но объект, обрабатываемый InterfaceGAN, является лицом, и лицо легко определить, и в этой статье речь идет о сценах, и изменения в сценах великолепны.

После получения семантического вектора используем Re-score для измерения семантической направленности, то есть смотрим степень смыслового изменения картинки до и после редактирования, формула ниже, К - количество отсчетов

После проверки у статьи есть три метода редактирования: первый очень простой — вдавить в семантическом направлении в скрытом пространстве, второй — вставить сумму двух семантических направлений, а третий — втолкнуть добавить немного случайного возмущения

эксперимент

Экспериментальное исследование представляет собой представление y на разных уровнях, как показано на следующем рисунке:

image.png

2020 Interpreting the Latent Space of GANs for Semantic Face Editing

задний план

  • До сих пор отсутствует понимание того, как GAN отображают скрытые коды в изображения.
  • Как семантика генерируется и организуется в скрытом пространстве? Как эти свойства были переплетены раньше?

мотивация

  • Продолжайте исследовать, как одна или несколько семантик кодируются в скрытом пространстве.
  • Дальше решаем задачу распутывания.
  • Получите лучшие эффекты редактирования для свойств изображения.

метод

semantics in the latent space

Учитывая GAN, генератор можно определить какg:ZXг: Z → X. вZRdZ \subseteq R^dпредставляет d-мерное скрытое пространство,XXпредставляет пространство изображения, где каждый образецxxВсе содержат семантику.
определить функцию оценкиfS:XSf_S: X → S,SRmS \subseteq R^mПредставляет семантическое пространство с m-мерными семантическими показателями. Такs=fS(g(z))s = f_S(g(z))связанный со скрытым пространствомZZи смысловое пространствоSS.

Как видно из предыдущей статьи, в латентном пространстве в качестве границы раздела находится гиперплоскость (по одной на каждый тип атрибута), а атрибуты, соответствующие латентным кодам на одной стороне плоскости, одинаковы (например , оба пола — мужчины), и пересечение гиперплоскости приведет к Измене.
Задайте единичный нормальный вектор гиперплоскостиnеRdn ∈ R ^ d, определяя выборкуzzРасстояние «расстояние» до этой гиперплоскости равноd(n,z)=nTzd(n,z)=n^Tz. Измените размер этого расстояния, значение семантического атрибута будет изменено, и когда положительные и отрицательные значения перевернуты, атрибут также перевернется (от мужчины к женщине), поэтому мы также можем линейно выразить отношение между расстоянием и семантическая оценка следующим образом:f(g(z))=λd(n,z)f(g(z))=λd(n,z).

Для множественной семантики:SfS(g(z))=ΛNTzS\equiv f_S(g(z)) = \Lambda N^Tz.Λ=diag(λ1,...,λm)\Lambda = diag(λ_1,...,λ_m),N=[n1,...,nm]N=[n_1,...,n_m]Представляет все единичные векторы нормалей, то есть направление, которое мы ищем,zzРаспределениеN(0,Id)N(0, I_d), мы вычисляем среднее значение и ковариацию семантической оценки s как:

image.png

sN(0,Σs)s \sim N(0, \Sigma_s), представляет собой многомерное нормальное распределение,Σs\Sigma_sСемантика распутывается только тогда, когда диагональная матрица, т.е.n1,...,nm{n_1,...,n_m}также является ортогональным. И наоборот, вы можете использоватьniTnjn_i^Tn_jдля измерения степени запутанности между семантикой i и семантикой j.

manipulation in the latent space

Как манипулировать свойствами сгенерированного изображения?
одиночная семантическая модификация:Мы используемzedit=z+αnz_{edit} = z + αnредактировать,α>0α > 0, синтетический результат семантически более положительный (пожилые люди старше), и наоборот (пожилые люди моложе). Отредактированная партитура становитсяf(g(zedit))=f(g(z))+λαf(g(z_{edit})) = f(g(z)) + λα.

изменение состояния:
Поскольку между различными атрибутами нет полной развязки, другие атрибуты могут модифицироваться одновременно только в определенном семантическом направлении.
Поэтому предлагается способ модификации: в случае сохранения одной семантики (n2) без изменений изменить другую семантику (n1):

image.png

эксперимент

latent space separation

Узнайте, можно ли использовать гиперплоскость для различения свойств. На основе контролируемого метода 5 независимых SVM обучаются для таких атрибутов, как поза, улыбка, возраст, пол, глаза и т. д. (т. е. нахождение гиперплоскости), а затем оцениваются. Результат - лучшее различие.

image.png

latent space manipulation

Убедитесь, что семантика работает.

image.png

conditional manipulation

Исследуйте развязку. использоватьcos(n1,n2)=n1Tn2cos(n_1,n_2)=n_1^Tn_2,Находить:

image.png
Улыбка и поза оказываются почти ортогональными другим атрибутам. Однако пол, возраст и очки сильно коррелировали. Это наблюдение отражает корреляции атрибутов в обучающем наборе данных. В какой-то степени пожилые мужчины здесь чаще носят очки. GAN также учитывают эту функцию, когда учатся создавать реалистичные наблюдения.

2020 Unsupervised discovery of interpretable directions in the GAN latent space

фоновая мотивация

  • В скрытом пространстве GAN есть значимые направления, которые мы должны объяснить.
  • Это часто делалось под наблюдением или самоконтролем, что ограничивало рамки нашего исследования.

Цель

  • Предложите неконтролируемый способ интерпретации направлений в скрытом пространстве.
  • Найдите больше направлений, чтобы контролировать больше атрибутов.

Method

федеративное обучениеAAиRR,фиксированныйGG.

1.png

  • матрицаAеRd×kА ∈ R^{d×k}ddравно размерности скрытого пространства,kkравно количеству направлений, которые мы хотим попытаться обнаружить (в зависимости от модели сети и набора данных).kkпредставляет собой однократный векторeke^kПервыйkkРазмер 1, умножьте матрицуAA, это эквивалентно выборуAAk-е направление в .εεМера того, насколько мы меняемся в этом направлении.
z'=z+A(εek)z' = z + A(εe_k)
  • рефакторингRR, входом которого является пара изображенийG(z)G(z)иG(z+A(εek))G(z + A(εe_k)).RRвывести скалярную пару(k',ε')(k', ε'), то есть найти ранее выбранное направлениеkk, и величина изменения.

оптимизировать цель:

1.png
Почему этот подход работает?

  • Минимизация k, то есть попытка определить конкретное направление в A, позволяет легче отличить соответствующие переходы изображения друг от друга. Это можно рассматривать как процесс развязки.
  • Минимизируя ε, мы заставляем движение в этом направлении быть не скачкообразным, а непрерывным.

Ограничения на матрицу A

  • Все столбцы имеют векторы по модулю 1
  • Все столбцы ортогональны

В экспериментах было замечено, что оба эффекта были хорошими, и были обнаружены некоторые схожие направления интерпретации. Обычно чаще используется столбец единичных векторов, потому что можно найти больше направлений. Но в некоторых наборах данных второй может раскрыть некоторые более интересные детали.

эксперимент

Измерение способности развязки

Видно, что по мере постепенного приближения количества шагов обучения движение в этом направлении уже не меняет тип цифр, а только меняет толщину цифр, что в полной мере показывает, что мы развязали признаки типа цифры и числа толщина.image.png

2019 GANalyze Toward Visual Definitions of Cognitive Image Properties

задний план

  • Некоторые свойства, такие как «память», еще не имеют четкого визуального определения.
  • Какие атрибуты делают этот образ более запоминающимся?
  • Как управлять этими свойствами?

Цель

  • Найдите наглядное определение таких трудно поддающихся определению атрибутов, как «память».
  • Реализуйте непрерывный контроль над такими свойствами.

метод

формула:

L(θ)=Ez,y,α[(A(G(Tθ(z,α),y))(A(G(z,y))+α))2]L(θ) =E_{z,y,α}[(A(G(T_θ(z, α), y))-(A(G(z,y))+α))^2]
T(z,α)=z+αθT(z,α)=z+αθ

Функция оценки оценки памятиAA, реализованный с помощью MemNet.

эксперимент

  • Исследуйте, какие свойства влияют на запоминаемость, изменяя α в найденных направлениях.

1.png

2020 О «УПРАВЛЯЕМОСТИ» ГЕНЕРАТИВНО-ПРОТИВОПОЛОЖНЫХ СЕТЕЙ

задний план

  • Есть управляемость в генерации GAN
  • Степень вариации атрибутов сцены сгенерированных изображений ограничена распределением обучающих данных.

Цель

  • Самоконтролируемый способ реализации скрытого обхода кода для достижения преобразования атрибутов (движение камеры и изменение цвета)
  • Рассмотрим два блуждания: линейное и нелинейное.
  • Оценить изменчивость по отношению к наборам данных и количественно определить степень изменчивости

image.png

метод

image.png

w*=арг минwEz,α[L(G(z+αw),edit(G(z),α)]w^* = {\underset {w}{\operatorname {arg\,min} }}\,E_{z,α}[L(G(z+αw), edit(G(z), α)]

editedit- операция преобразования сгенерированного изображения,ααпараметр внешней подстройки,ююявляется обучаемым параметром, а операция, предполагаемая этой формулой, является линейной операцией.

L=Ez,n[G(fn(z))edit(G(z),nϵ))]L = E_{z,n}[||G(f^n(z))-edit(G(z), nϵ))||]

Нелинейная операция соответствует нелинейной функции zf(z)f(z),однаждыf*(z)f^*(z)Представляет редактирование изображенияedit(G(z),ϵ)edit(G(z),ϵ), рекурсивное преобразование n раз — это преобразование за n шагов. где n представляет n-й шаг,ϵϵпредставляет длину шага,fn(z)f^n(z)является рекурсивной функцией n раз. Давайте посмотрим, как рекурсия может достичь оптимальности несколько раз.

преобразование квантования

Для некоторых свойств была проведена количественная оценка оценки.

  • Для преобразования цвета индекс квантования представляет собой изменение значения пикселя на 100 пикселей до и после случайного извлечения преобразования, нормализованного до 1.
  • Для преобразования масштабирования и сдвига количественный показатель заключается в использовании сети обнаружения цели для вывода центрального положения объекта, разделенного на ширину и высоту поля для нормализации.

β-VAE: LEARNING BASIC VISUAL CONCEPTS WITH A CONSTRAINED VARIATIONAL FRAMEWORK

фоновая мотивация

  • Распутанное представление может улучшить производительность функций, таких как последующие свойства управления.
  • Архитектура на основе VAE, как сбалансировать потери при реконструкции и потери при регуляризации?

целевой вклад

  • Предложите бета-VAE для улучшения разделения скрытого представления

метод

Нижняя граница VAE состоит из реконструктивной потери и регулярной потери. Добавлен один к термину KLββГиперпараметры используются для управления пропорцией этих двух потерь в процессе оптимизации. (Примечание: KL используется дляp(zx)p(z|x)распределение близко к стандартному нормальному распределению)
ВАЭ:L=Eq(zx)[logp(xz)]KL[q(zx)p(z)]L = E_{q(z|x)}[logp(x|z)] - KL[q(z|x)||p(z)]
β-ВАЭ:L=Eq(zx)[logp(xz)]β*KL[q(zx)p(z)]L = E_{q(z|x)}[logp(x|z)]-β*KL[q(z|x)||p(z)]
Конкретно:
Нам нужны скрытые переменныеzzВы можете узнать информацию о независимых факторах (то есть несвязанных). Поскольку уменьшение KL приведет к плохой способности к реконструкции, нецелесообразно использовать исходную нижнюю границу в качестве метода оценки.В этой статье предлагается метод метрики оценки распутывания на основе классификатора (используется для поиска подходящего значения бета).

distanglement metric

Для определенного фактора фиксирован, а затем остальные факторы случайны, получить некоторые представления x и x', всего L пар, получить соответствующие z и z', вычислить разницу абсолютного значения между каждой парой z и z', и закинуть их в классификацию. В устройстве в идеале должно быть одно измерение по z, разность абсолютного значения которого равна 0, тогда оно ему соответствует, и таким образом получается распутывание.

Соответствующий процесс показан на рисунке ниже. Обучите классификатор, чтобы найти направление, абсолютное значение которого близко к 0. Если он найден, это означает, что связь низкая.После обучения используйте его для измерения текущегоββХорошо ли связан следующий фактор.

image.png