Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks
Введение
Автоматическое создание изображений из описаний на естественном языке является фундаментальной проблемой во многих приложениях, таких как создание произведений искусства и автоматизированный дизайн.Методы синтеза текста в изображение на основе генеративно-состязательных сетей (GAN)самая популярная стратегия.
В методах на основе GAN общей стратегией является кодирование всего текстового описания в глобальный вектор предложений в качестве условия для создания изображений на основе сети, однако эта стратегия ограничена глобальными векторами предложений и не имеет важных деталей на уровне слов. информации, что препятствует получению высококачественных изображений. Для преодоления этой проблемы в статье предлагаетсяУправляемая вниманием, многоступенчатая мелкозернистая состязательная сеть, генерирующая внимание к тексту и изображению (AttnGAN)Модель, состоящая из двух новых компонентов:
- Первый компонент — это сеть, генерирующая внимание, где механизм внимания используется в генераторе для рисования различных подобластей изображения, фокусируясь на словах, наиболее релевантных рисуемым подобластям. (Как показано на рисунке 1)
- Другим компонентом является мультимодальная модель сходства с глубоким вниманием (DAMSM).DAMSM может использовать глобальную информацию на уровне предложений и детализированную информацию на уровне слов для расчета сходства между сгенерированными изображениями и предложениями, поэтому DAMSM является обучающим. -зернистая потеря совпадения изображения и текста.
Генерирующая внимание состязательная сеть AttnGAN
Архитектура AttnGAN показана на рисунке 2 и состоит из двух компонентов: 1. Сеть генерации внимания 2. Модель мультимодального сходства глубокого внимания.
Сеть привлечения внимания
В этом разделе мы предлагаем новую модель внимания, генерирующая сеть которой способна рисовать различные подобласти изображения в соответствии со словами, наиболее соответствующими подобласти.
Как показано на рисунке 2, сеть производства вниманиягенераторы, который использует неявное состояниеВ качестве входных данных создайте мелкомасштабные изображения. детали следующим образом:
— вектор шума, обычно выбираемый из нормального распределения.глобальный вектор предложения,является векторной матрицей слов.Указывает на усиление кондиционирования, которое используется для преобразованияПреобразуйте в кондиционирующий вектор.Представляет первый в AttnGANмодель сценического внимания,моделируются как нейронные сети.
Есть два входа, векторы слови элементы изображения из предыдущего скрытого слоя. Во-первых, путем добавления нового персептронного слоя признаки слова трансформируются в общее семантическое пространство признаков изображения, а именно:. Затем по скрытым признакам образа(запрос), вычислить вектор контекста слова (вектор контекста слова) для каждой подобласти изображения, а именноКаждый столбец представляет собой вектор признаков для подобласти изображения. во-первыхсубрегионы, чей вектор контекста слова является вектором слова оДинамическое представление , которое вычисляется как:
в,,иУказывает, что модель генерируетсубрегионывес слов. Затем для набора функций изображенияОпределите матрицу контекста слова следующим образом:. Наконец, функции изображения объединяются с соответствующими функциями контекста слова для создания изображений для следующего этапа.
Для генерации реальных изображений с многоуровневыми (на уровне предложений и на уровне слов) условиями конечная целевая функция сети генерации внимания определяется как:
два члена в формуле (т.е.) параметры баланса.
Первый член - это потери GAN, которые объединяют совместно аппроксимированные условное и безусловное распределения. В первом из AttnGANсцена, генераторимеет соответствующий дискриминатор,ноПроигрыш противника определяется как:
Безусловная потеря определяет подлинность изображения, а условная потеря определяет, соответствует ли изображение предложению.
заобучение для каждого дискриминатораПотеря обучается классифицировать ввод как истинный и ложный путем минимизации кросс-энтропийной потери, тогда потеря определяется как:
Изображение изистинное распределение в масштабе,из модельного распределения в том же масштабе, дискриминаторы AttnGAN структурно не пересекаются, поэтому их можно обучать параллельно, и каждый дискриминатор фокусируется на одном масштабе изображения.
второй раздел- это потеря точного совпадения изображения и текста на уровне слова, определяемая выражениемDAMSMОн рассчитывается и будет подробно объяснен в следующем разделе.
Мультимодальная модель сходства глубокого внимания DAMSM
DAMSM изучает две нейронные сети,Сопоставление подобластей изображений и слов предложений в единое семантическое пространство, который измеряет сходство изображения и текста на уровне слов и вычисляет мелкие потери при создании изображений.
Кодировщик текста: это двунаправленная сеть долговременной кратковременной памяти (LSTM) для извлечения семантических векторов из текстовых описаний. В двунаправленном LSTM каждое слово соответствует двум скрытым состояниям, а каждое направление соответствует одному скрытому состоянию, поэтому два его скрытых состояния связаны для представления семантического значения слова. Матрица признаков всех слов выражается как,Первыйуказан как №вектор признаков для каждого слова.- размерность вектора слов,это количество слов. В то же время последнее скрытое состояние двунаправленного LSTM объединяется в глобальный вектор предложения с использованиемВыражать.
Кодировщик изображений: это сверточная нейронная сеть (CNN) для преобразования изображений в семантические векторы. Средний уровень CNN изучает локальные особенности различных субрегионов на изображении, а последний слой изучает глобальные особенности изображения. В частности, изображение encoder Он построен на модели Inception-v3, предварительно обученной с помощью ImageNet. Сначала входное изображение масштабируется до 299×299 пикселей, а затем извлекается из Inception-v3.mixed_6eСлой для извлечения матрицы локальных признаков(отувеличить),Каждый столбец представляет собой вектор признаков подобласти на изображении, 768 — размер локального вектора признаков, а 289 — количество подобластей в изображении. В то же время глобальные векторы признаков извлекаются из последнего уровня объединения платформ Inception-v3.. Наконец, признаки изображения преобразуются в общее семантическое пространство текстовых признаков путем добавления слоя персептрона:
в:, это первыйСписокпредставляет образвектор мировых признаков для каждого субрегиона.глобальный вектор всего изображения,Представляет размерность многомодального (модальность текста и изображения) пространства признаков.
Оценка совпадения изображения и текста, ориентированная на внимание: этот показатель предназначен для измерения соответствия пар изображение-предложение на основе модели внимания между изображениями и текстом. Сначала вычислите матрицу сходства для всех возможных сочетаний слов в предложении и подобластях изображения:
,первое в предложениислова и образыСходство скалярного произведения между субрегионами. Авторы обнаружили, что нормализация матрицы подобия работает лучше:
Затем создайте модель внимания для расчета вектора контекста региона для каждого слова (запроса), вектора контекста региона (вектора региона-контекста)является подобластью изображения и первой в предложенииДинамическое представление словесных ассоциаций в виде взвешенной суммы всех региональных визуальных векторов:
при вычислении вектора регионального контекста слова,Решите, сколько внимания следует уделять особенностям соответствующих субрегионов.фактор .
Наконец, используйтеКосинусное расстояние между ними определяет первыйСоотношение раба и образа, а именно:. Вдохновленный формулой минимальной ошибки классификации при распознавании речи, все изображение (спредставление) и полное текстовое описание (сОриентированная на внимание оценка совпадения изображения и текста между представлениями определяется как:
в,является фактором, который определяет, как усилить важность наиболее релевантных пар слово-регион-контекст. когдачас,примерно равно.
потеря DAMSM: эта потеря предназначена для изучения моделей внимания в полуконтролируемой манере, где единственным контролем является соответствие между всем изображением и всем предложением (последовательностью слов). Для пакета пар изображение-предложение, и приговори соответствующие изображенияАпостериорная вероятность рассчитывается как:
здесь– экспериментально определяемый коэффициент сглаживания. Только для этого набора предложенийс изображениемсовпадение, остальноепредложения как несоответствующие описания. Функция потерь определяется как отрицательная логарифмическая апостериорная вероятность изображения, совпадающего с соответствующим текстовым описанием (основная истина) (означает слово):
Симметрично, минимизировать:
в:
для приговорас изображениемАпостериорная вероятность совпадения. Аналогичный способ получения(вотдля приговора).
Окончательная потеря DAMSM определяется как: