латентное пространственное мышление семем

искусственный интеллект

скрытое пространство в НЛП

В области nlp есть некоторые проблемы с прямой операцией скрытого кода с моделью GAN.Рисунок является примером.При путешествии в скрытом пространстве среднее предложение не имеет смысла.image.png

Самое простое решение — использовать VAE вместо GAN. Сам метод обучения GAN очень зависит от непрерывного пространства. Во время обучения нашей целью является значение пикселя в непрерывном пространстве. На данный момент у VAE нет такого предположения. Так что VAE — это естественный выбор.

image.png

основная проблема

Существующие методы интерпретации скрытого пространства изображения

  • контролировать

Простой классификатор, векторная машина SVM и т. д.
статья:
Semantic Hierarchy Emerges in Deep Generative Representations for Scene Synthesis Interpreting the Latent Space of GANs for Semantic Face Editing
GANalyze Toward Visual Definitions of Cognitive Image Properties

  • самоконтроль

Отредактируйте одно и то же изображение до и после, чтобы получить два изображения какyyиy'y'Тогда тренируйтесь.
Атрибуты должны легко наблюдаться и измеряться (размер, местоположение...).
статья:
On the steerability of generative adversarial networks
Controlling generative models with continuous factors of variations

  • неконтролируемый

Разложение матрицы: несколько направлений получаются посредством собственного разложения.
Совместное обучение: В качестве параметра обучения используется матрица, составленная из направлений.
Часто бывает необходимо попробовать атрибуты, соответствующие направлению, один за другим.
статья:
Closed-Form Factorization of Latent Semantics in GANs
Unsupervised Discovery of Interpretable Directions in the GAN Latent Space

считать

Идея 1: Найдите направление с помощью неконтролируемой декомпозиции признаков, избегая проблемы определения атрибутов.

  • неконтролируемыйПо сравнению с супервизией/самоконтролем, наш метод может ориентироваться на все более сложные свойства, которые не определены нами заранее.
  • По сравнению с текстом атрибуты изображений более четкие, их легче наблюдать и измерять, поэтому построение меток также проще, а атрибуты текста более абстрактны и их трудно измерить количественно.
  • Вдохновлен закрытой факторизацией скрытой семантики в GAN.
y'=F1(z')=F1(z+αn)=Az+b+αAn=y+αAny' = F_1(z') = F_1(z + αn) = Az + b + αAn = y + αAn
n*=аргумент maxnеRd:nTn=1 An22п ^ * знак равно {\ underset {п ∈ R ^ d: п ^ Tn = 1} {\ OperatorName {аргумент \, макс}}} \ || An || ^ 2_2
N*=аргумент maxNеRd×k:niTni=1i=1,...,k i=1kAni22N ^ * знак равно {\ underset {N ∈ R ^ {d × k}: n_i ^ Tn_i = 1 \ forall i = 1, ..., k} {\ operatorname {arg \, max}}} \ \ sum_ { я=1}^к||Ан_я||^2_2
=аргумент maxNеRd×k i=1kAni22i=1kλi(niTni1)знак равно {\ underset {N ∈ R ^ {d × k}} {\ operatorname {arg \, max}}} \ \ sum_ {i = 1} ^ k || An_i || ^ 2_2 - \ sum_ {i = 1 } ^ к λ_i (n_i ^ T n_i - 1)
=аргумент maxNеRd×k i=1k(nitATAniλiniTni+λi)знак равно {\ underset {N ∈ R ^ {d × k}} {\ operatorname {arg \, max}}} \ \ sum_ {i = 1} ^ k (n_i ^ tA ^ TAn_i - λ_in_i ^ Tn_i + λ_i)
ATAni=λiniA^TAn_i = λ_in_i
ATA=QΛQTA^TA = Q\Lambda Q^T

В нашей построенной сети, если мы сможем получить отображение первого слоя для скрытого кодаFFсетевые параметрыAA, затем используйте его для декомпозиции признаков, чтобы получить несколько направлений, а затем опробуйте их соответствующие атрибуты.

Идея 2: взять направление как матрицу параметров и решить ее с помощью неконтролируемого совместного обучения.

  • Он также пытается найти более неожиданные направления, избегая предварительного определения атрибутов посредством неконтролируемого избегания.
  • Вдохновленный неконтролируемым открытием интерпретируемых направлений в скрытом пространстве GAN.

федеративное обучениеAAиBB,фиксированныйDecoderDecoder.

1.png

  • матрицаAеRd×kА ∈ R^{d×k}ddравно размерности скрытого пространства,kkравно количеству направлений, которые мы хотим попытаться обнаружить (в зависимости от модели сети и набора данных).kkпредставляет собой однократный векторeke^kПервыйkkРазмер 1, умножьте матрицуAA, это эквивалентно выборуAAk-е направление в .εεМера того, насколько мы меняемся в этом направлении.
z'=z+A(εek)z' = z + A(εe_k)
  • рефакторингRR, входом которого является пара словW1W_1,W2W_2,СейчасD(z)D(z)иD(z+A(εek))D(z + A(εe_k)).BBвывести скалярную пару(k',ε')(k', ε'), то есть найти ранее выбранное направлениеkk, и величина изменения.

оптимизировать цель:

1.png
Почему этот подход работает?

  • минимизироватьΔkΔk, то есть попытка определить конкретное направление в A, процесс, который делает изменения различных свойств в слове легко отличимыми друг от друга. Это можно рассматривать как процесс развязки.
  • минимизироватьΔεΔε, заключается в том, чтобы заставить движение в этом направлении быть непрерывным, а не скачкообразным.

Идея 3: Начните с интуитивных свойств слов и проведите обучение под наблюдением.

  • Из семантических атрибутов слов выберите те, которые являются более интуитивными и простыми для измерения, и составьте ярлыки, которые можно использовать для надзора или самоконтроля.

Начните со слов:
структурапара слов (x1,x2), например, для глаголов и существительных, построить (рис, есть), (блюдо, есть), (книга, читать), (рисовать, см. картину)...
z1z_1иz2z_2соответствоватьx1x_1иx2x_2характеристика,DDявляется декодером.
использовать:

n*=арг минnEz,α[HowNet(D(z1+αn),D(z2)]n^* = {\underset {n}{\operatorname {arg\,min} }}\,E_{z,α}[HowNet(D(z_1+αn), D(z_2)]

HowNet(D(z1),D(z2))HowNet(D(z1),D(z2))Он используется для измерения семантического сходства двух слов, а цель оптимизации — свести к минимуму их различия.

Начните с квантификаторов:
заNumber=F(z)Number= F(z), попытаться найтиnn,сделатьNumber'=F(z+αn)Number' = F(z + αn)вместе сααимеют такие же изменения.