[Бумажное обучение] Алгоритм генерации текста-изображения AttnGAN

искусственный интеллект алгоритм

Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks

Исходная ссылка

Введение

Автоматическое создание изображений из описаний на естественном языке является фундаментальной проблемой во многих приложениях, таких как создание произведений искусства и автоматизированный дизайн.Методы синтеза текста в изображение на основе генеративно-состязательных сетей (GAN)самая популярная стратегия.

В методах на основе GAN общей стратегией является кодирование всего текстового описания в глобальный вектор предложений в качестве условия для создания изображений на основе сети, однако эта стратегия ограничена глобальными векторами предложений и не имеет важных деталей на уровне слов. информации, что препятствует получению высококачественных изображений. Для преодоления этой проблемы в статье предлагаетсяУправляемая вниманием, многоступенчатая мелкозернистая состязательная сеть, генерирующая внимание к тексту и изображению (AttnGAN)Модель, состоящая из двух новых компонентов:

  • Первый компонент — это сеть, генерирующая внимание, где механизм внимания используется в генераторе для рисования различных подобластей изображения, фокусируясь на словах, наиболее релевантных рисуемым подобластям. (Как показано на рисунке 1)
  • Другим компонентом является мультимодальная модель сходства с глубоким вниманием (DAMSM).DAMSM может использовать глобальную информацию на уровне предложений и детализированную информацию на уровне слов для расчета сходства между сгенерированными изображениями и предложениями, поэтому DAMSM является обучающим. -зернистая потеря совпадения изображения и текста.

image.png

Генерирующая внимание состязательная сеть AttnGAN

Архитектура AttnGAN показана на рисунке 2 и состоит из двух компонентов: 1. Сеть генерации внимания 2. Модель мультимодального сходства глубокого внимания.

image.png

Сеть привлечения внимания

В этом разделе мы предлагаем новую модель внимания, генерирующая сеть которой способна рисовать различные подобласти изображения в соответствии со словами, наиболее соответствующими подобласти.

Как показано на рисунке 2, сеть производства вниманияmmгенераторы(G0,G1,...,Gm1)(G_0,G_1,...,G_{m-1}), который использует неявное состояниеh0,h1,..,hm1h_0,h_1,..,h_{m-1}В качестве входных данных создайте мелкомасштабные изображения(x^0,x^1,...,x^m1)(\hat{x}_0,\hat{x}_1,...,\hat{x}_{m-1}). детали следующим образом:

image.png

zz— вектор шума, обычно выбираемый из нормального распределения.eˉ\bar{e}глобальный вектор предложения,eeявляется векторной матрицей слов.FcaF^{ca}Указывает на усиление кондиционирования, которое используется для преобразованияeˉ\bar{e}Преобразуйте в кондиционирующий вектор.FiattnF^{attn}_iПредставляет первый в AttnGANiiмодель сценического внимания,Fca,Fiattn,Fi,GiF^{ca},F^{attn}_i,F_i,G_iмоделируются как нейронные сети.

Fattn(e,h)F^{attn}(e,h)Есть два входа, векторы словeеRD×Te\in \mathbb{R}^{D\times T}и элементы изображения из предыдущего скрытого слояhеRD^×Nh\in \mathbb{R}^{\hat{D}\times N}. Во-первых, путем добавления нового персептронного слоя признаки слова трансформируются в общее семантическое пространство признаков изображения, а именно:e'=Ue,UеRD^×De'=Ue, U\in \mathbb{R}^{\hat{D} \times D}. Затем по скрытым признакам образаhh(запрос), вычислить вектор контекста слова (вектор контекста слова) для каждой подобласти изображения, а именноhhКаждый столбец представляет собой вектор признаков для подобласти изображения. во-первыхjjсубрегионы, чей вектор контекста слова является вектором слова оhjh_jДинамическое представление , которое вычисляется как:

cj=i=0T1бетаj,iei',where бетаj,i=exp(sj,i')k=0T1exp(sj,k')c_j=\sum^{T-1}_{i=0}\beta_{j,i}e'_{i},\pmb{where}\ \ \beta_{j,i}=\frac{exp(s'_{j,i})}{\sum^{T-1}_{k=0}exp(s'_{j,k})}

в,sj,i'=hjTei's'_{j,i}=h^T_je'_iбетаj,i\beta_{j,i}Указывает, что модель генерируетjjсубрегионыiiвес слов. Затем для набора функций изображенияhhОпределите матрицу контекста слова следующим образом:Fattn(e,h)=(c0,c1,....,cN1)еRD^×NF^{attn}(e,h)=(c_0,c_1,....,c_{N-1})\in \mathbb{R}^{\hat{D}\times N}. Наконец, функции изображения объединяются с соответствующими функциями контекста слова для создания изображений для следующего этапа.

Для генерации реальных изображений с многоуровневыми (на уровне предложений и на уровне слов) условиями конечная целевая функция сети генерации внимания определяется как:

L=LG+λLDAMSM,where LG=i=0m1LGiL=L_G+\lambda L_{DAMSM},\pmb{where} \ L_G=\sum^{m-1}_{i=0}L_{G_i}

λ\lambdaдва члена в формуле (т.е.LL) параметры баланса.

Первый член - это потери GAN, которые объединяют совместно аппроксимированные условное и безусловное распределения. В первом из AttnGANiiсцена, генераторGiG_iимеет соответствующий дискриминаторDiD_i,ноGiG_iПроигрыш противника определяется как:

image.png

Безусловная потеря определяет подлинность изображения, а условная потеря определяет, соответствует ли изображение предложению.

заGiG_iобучение для каждого дискриминатораDiD_iПотеря обучается классифицировать ввод как истинный и ложный путем минимизации кросс-энтропийной потери, тогда потеря определяется как:

image.png

xix_iИзображение изiiистинное распределение в масштабеPdataiP_{data_i},x^i\hat{x}_iиз модельного распределения в том же масштабеPGiP_{G_i}, дискриминаторы AttnGAN структурно не пересекаются, поэтому их можно обучать параллельно, и каждый дискриминатор фокусируется на одном масштабе изображения.

второй разделLDAMSML_{DAMSM}- это потеря точного совпадения изображения и текста на уровне слова, определяемая выражениемDAMSMОн рассчитывается и будет подробно объяснен в следующем разделе.

Мультимодальная модель сходства глубокого внимания DAMSM

DAMSM изучает две нейронные сети,Сопоставление подобластей изображений и слов предложений в единое семантическое пространство, который измеряет сходство изображения и текста на уровне слов и вычисляет мелкие потери при создании изображений.

Кодировщик текста: это двунаправленная сеть долговременной кратковременной памяти (LSTM) для извлечения семантических векторов из текстовых описаний. В двунаправленном LSTM каждое слово соответствует двум скрытым состояниям, а каждое направление соответствует одному скрытому состоянию, поэтому два его скрытых состояния связаны для представления семантического значения слова. Матрица признаков всех слов выражается какeеRd×Te\in \mathbb{R}^{d\times T},eie_iПервыйiiуказан как №iiвектор признаков для каждого слова.DD- размерность вектора слов,TTэто количество слов. В то же время последнее скрытое состояние двунаправленного LSTM объединяется в глобальный вектор предложения с использованиемeˉеRD\bar{e}\in \mathbb{R}^DВыражать.

Кодировщик изображений: это сверточная нейронная сеть (CNN) для преобразования изображений в семантические векторы. Средний уровень CNN изучает локальные особенности различных субрегионов на изображении, а последний слой изучает глобальные особенности изображения. В частности, изображение encoder Он построен на модели Inception-v3, предварительно обученной с помощью ImageNet. Сначала входное изображение масштабируется до 299×299 пикселей, а затем извлекается из Inception-v3.mixed_6eСлой для извлечения матрицы локальных признаковfеR768×289f \in \mathbb{R}^{768\times 289}(от768×17×17768\times 17 \times 17увеличить),ffКаждый столбец представляет собой вектор признаков подобласти на изображении, 768 — размер локального вектора признаков, а 289 — количество подобластей в изображении. В то же время глобальные векторы признаков извлекаются из последнего уровня объединения платформ Inception-v3.fˉеR2048\bar{f}\in \mathbb{R}^{2048}. Наконец, признаки изображения преобразуются в общее семантическое пространство текстовых признаков путем добавления слоя персептрона:

v=Wf,vˉ=Wˉfˉv=Wf,\bar{v}=\bar{W}\bar{f}

в:vеRD×289v \in \mathbb{R}^{D\times 289}, это первыйiiСписокviv_iпредставляет образiiвектор мировых признаков для каждого субрегиона.vˉеRD\bar{v} \in \mathbb{R}^{D}глобальный вектор всего изображения,DDПредставляет размерность многомодального (модальность текста и изображения) пространства признаков.

Оценка совпадения изображения и текста, ориентированная на внимание: этот показатель предназначен для измерения соответствия пар изображение-предложение на основе модели внимания между изображениями и текстом. Сначала вычислите матрицу сходства для всех возможных сочетаний слов в предложении и подобластях изображения:

s=eTvs=e^Tv

sеRT×289s \in \mathbb{R}^{T\times 289},si,js_{i,j}первое в предложенииiiслова и образыjjСходство скалярного произведения между субрегионами. Авторы обнаружили, что нормализация матрицы подобия работает лучше:

sˉi,j=exp(si,j)k=0T1exp(sk,j)\bar{s}_{i,j}=\frac{exp(s_{i,j})}{\sum^{T-1}_{k=0}exp(s_{k,j})}

Затем создайте модель внимания для расчета вектора контекста региона для каждого слова (запроса), вектора контекста региона (вектора региона-контекста)cic_iявляется подобластью изображения и первой в предложенииiiДинамическое представление словесных ассоциаций в виде взвешенной суммы всех региональных визуальных векторов:

ci=j=0288альфаivi,альфа=exp(γ1sˉi,j)k=0288exp(γ1sˉi,k)c_i=\sum^{288}_{j=0}\alpha_i v_i, \alpha=\frac{exp(\gamma_1\bar{s}_{i,j})}{\sum^{288}_{k=0}exp(\gamma_1\bar{s}_{i,k})}

γ1\gamma_1при вычислении вектора регионального контекста слова,Решите, сколько внимания следует уделять особенностям соответствующих субрегионов.фактор .

Наконец, используйтеci,eic_i,e_iКосинусное расстояние между ними определяет первыйiiСоотношение раба и образа, а именно:R(c1,ei)=(ciTei)/(ci ei)R(c_1,e_i)=(c^T_ie_i)/(||c_i||\ ||e_i||). Вдохновленный формулой минимальной ошибки классификации при распознавании речи, все изображение (сQQпредставление) и полное текстовое описание (сDDОриентированная на внимание оценка совпадения изображения и текста между представлениями определяется как:

R(Q,D)=log(i=1T1exp(γ2R(ci,ei)))1/γ2R(Q,D)=\log(\sum^{T-1}_{i=1}exp(\gamma_2 R(c_i,e_i)))^{1/\gamma_2}

в,γ2\gamma_2является фактором, который определяет, как усилить важность наиболее релевантных пар слово-регион-контекст. когдаγ2\gamma_2 \rightarrow \inftyчас,R(Q,D)R(Q,D)примерно равноmaxi=1T1 R(c1,ei)\max^{T-1}_{i=1}\ R(c_1,e_i).

потеря DAMSM: эта потеря предназначена для изучения моделей внимания в полуконтролируемой манере, где единственным контролем является соответствие между всем изображением и всем предложением (последовательностью слов). Для пакета пар изображение-предложение{(Qi,Di)}i=1M\{(Q_i,D_i)\}^M_{i=1}, и приговорDiD_iи соответствующие изображенияQiQ_iАпостериорная вероятность рассчитывается как:

P(DiQi)=exp(γ3 R(Qi,Di))j=1M exp(γ3 R(Qi,Dj))P(D_i|Q_i)=\frac{exp(\gamma_3\ R(Q_i,D_i))}{\sum^M_{j=1}\ exp(\gamma_3\ R(Q_i,D_j))}

здесьγ3\gamma_3– экспериментально определяемый коэффициент сглаживания. Только для этого набора предложенийDiD_iс изображениемQiQ_iсовпадение, остальноеM1M-1предложения как несоответствующие описания. Функция потерь определяется как отрицательная логарифмическая апостериорная вероятность изображения, совпадающего с соответствующим текстовым описанием (основная истина) (wwозначает слово):

L1w=i=1MlogP(DiQi)L^w_1=-\sum^M_{i=1}\log P(D_i|Q_i)

Симметрично, минимизировать:

L2w=i=1MlogP(QiDi)L^w_2=-\sum^M_{i=1}\log P(Q_i|D_i)

в:

P(QiDi)=exp(γ3 R(Qi,Di))j=1M exp(γ3 R(Qj,Di))P(Q_i|D_i)=\frac{exp(\gamma_3\ R(Q_i,D_i))}{\sum^M_{j=1}\ exp(\gamma_3\ R(Q_j,D_i))}

для приговораDiD_iс изображениемQiQ_iАпостериорная вероятность совпадения. Аналогичный способ полученияL1s,L2sL^s_1,L^s_2(вотssдля приговора).

Окончательная потеря DAMSM определяется как:

LDAMSM=L1w+L2w+L1s+L2sL_{DAMSM}=L^w_1+L^w_2+L^s_1+L^s_2