предисловие
Эта статья о статье 2015 года.ABC-CNN: An Attention Based Convolutional Neural Network for Visual Question Answeringчтение заметок.
фон проблемы
Визуальные ответы на вопросы (VQA) — это обучающая задача, включающая компьютерное зрение и обработку естественного языка. Эта задача определяется следующим образом: система VQA принимает в качестве входных данных изображение и открытый вопрос на естественном языке в свободной форме об изображении и выдает ответ на естественном языке в качестве вывода. В переводе на китайский язык: система VQA принимает изображение и открытый вопрос на естественном языке в свободной форме об изображении в качестве входных данных и генерирует ответ на естественном языке в качестве выходных данных. Проще говоря, VQA — это процесс вопросов и ответов по картинке.
текст
В этой статье будут четко различаться слова «изображение» и «визуальный признак».
Abstract Note
В абстрактном разделе основное внимание в статье уделяется проблеме VQA, а общий подход заключается в усилении внимания к областям изображения, имеющим отношение к проблеме (quesion-quided attention), в ABC-CNN предлагается настраиваемая сверточная нейронная сеть на основе модели внимания (attention based configurable convolution neural network), чтобы выделить интересующую область входного изображения.
ABC-CNN определяет карта внимания для пары изображение-вопрос путем свертки карта характеристик изображения с настраиваемой сверточной ядра, полученные из семантики вопроса.
то есть настраиваемая свертка ABC-CNNkЯдро управляется и настраивается семантикой вопроса входного вопроса, извлекает карту характеристик изображения из входного изображения и объединяет ее с ядром свертки.kВыполните операцию свертки и получите соответствующую пару входного изображения-вопроса через результат свертки.attention map.
Introduction Note
Несколько ключевых моментов, поднятых в этом разделе, таковы:
-
Интегрируйте визуальную и семантическую информацию в задачи VQA, используя ABC-CNN в качестве единой платформы.
use ABC-CNN as a unified framework to integrate the visual and semantic infomation for VQA.
-
Идея реализации всей ABC-CNNДвижимый проблемой, ищет проблемные области, то есть с помощью входного вопроса применить модель внимания, чтобы найти область внимания на входном изображении, извлечь признаки и провести дальнейшее обучение.
-
Состав ABC-CNN разделен на четыре части:vision part, question understand part, answer generation part, attention extraction part/vision and question understanding part. Особенности каждой части:
- часть зрения: извлечение визуальных признаков из изображений с помощью CNN,Извлечение карты пространственных объектов вместо одного глобального визуального объекта
- часть понимания вопроса: в этой части используется модель LSTM [1] для получения вложений вопросов (вложения вопросов [2])
- часть генерации ответов: генерировать ответы с помощью простого многоклассового классификатора
-
Суть модели ABC-CNN состоит в том, чтобы выразить извлеченную информацию о внимании, управляемом вопросами, в видеquestion-guided attention map. Способ сделать этоСопоставьте входной вопрос из семантического пространства в обычное пространствоПолучите встраивание вопроса, а затем используйте встраивание вопроса для настройки ядра свертки.k,пройти черезkОперация свертки с изображением для полученияquestion-guided attention map
It(question-guided attention map) is is achieved via a configurable convolutional neural network,where the convolutional kernels are generated by projecting the question embeddings from the semantic space into the visual space.
-
ABC-CNN считает полученное ядро сверткиkиметь связанную или последовательную связь с визуальной информацией, определяемой семантикой вопроса
-
question-guided attention mapОтражает влияние каждой области изображения на цель.answerстепень важности. Его можно использовать для расчета пространственного веса каждой области изображения и фильтрации области/шума на изображении, не связанного с проблемой.
Некоторые вопросы по этой части
- как получитьquestion embeddings, Из-за глубокого понимания контента, связанного с НЛП, у меня есть сомнения относительно того, как получить отображение вопроса из семантического пространства вопроса в пространство визуальных признаков посредством встраивания вопроса.
- Для полученного ядра сверткиkСомневаюсь в визуальных признаках, которые могут эффективно охарактеризовать тот или иной объект
Related-Work-Note
В этой части в основном представлены предыстория проблемы VQA и проблемы описания изображения, основная идея модели внимания и настраиваемой сверточной нейронной сети.
Attention models
В этом разделе представлен подход модели внимания к извлечению признаков из изображений, то есть использование RNN для извлечения ряда областей предложения из входного изображения, изучение выходных данных скрытого состояния из декодирования LSTM и визуальных признаков, извлеченных из областей предложения. Получите необходимые веса внимания
Attention Based Configurable CNN Note
Ядром модели ABC-CNN являетсяattention extraction part, ядро сверткиkбудут сочетаться с функциями изображения (особенностями изображения), чтобы получитьquestion-guided attention ma, где ядро сверткиkВизуальные признаки, необходимые для характеристики вопроса
Attention Extraction
-
ядро сверткиk
где σ — сигмовидная функция, а s — информация о семантических признаках соответствующего объекта в вопросе.
-
question-guided attention map m
где I — особенности изображения
Question Understanding
в
- для функции гиперболического тангенса
- Вход LSTM под вопросомq
- question qинформация о языкеsчерез вывод LSTMhнаучиться получать
Вот еще одна форма графика данных, которая лично понимает эту часть
Image Feature Extraction
Эта часть в основном объясняет, как обработать входное изображение, чтобы получитьimage features
Метод работы заключается в том, чтобы ввести WHD изображение разделено на NN областей сетки, извлеките функции для каждой области сетки, чтобы получить окончательное NН*Дimage feature map
Answer Generation
Классификатор mutil-класса в этой части основан на трех входных данных:
- Исходная карта признаков изображенияI (original image feature map)
- Плотное встраивание задачs (dense question embedding)
- Карта характеристик веса вниманияI' (attention weighted feature map)
Чтобы избежать переобучения, в этой части также используется операция свертки 1*1, чтобы сделатьI'Количество каналов уменьшено, чтобы получитьиспользуется для расчета конечного результатаanswer
Связанная формула
в
- для карты внимания, основанной на вопросах
- для полученной карты объектов, взвешенных по вниманию
- для поэлементно масштабируемой гиперболической касательной функции:
- hОкончательные признаки, извлеченные для пары вопрос-изображение (final projected feature)
- Мультиклассовый классификатор использует ***softmax*** в качестве метода расчета.
Содержание цитаты
Эпилог
Содержание оригинальное, если есть ошибки в тексте, укажите~