Заметки о чтении ABC-CNN

искусственный интеллект Нейронные сети компьютерное зрение NLP

предисловие

Эта статья о статье 2015 года.ABC-CNN: An Attention Based Convolutional Neural Network for Visual Question Answeringчтение заметок.

фон проблемы

Визуальные ответы на вопросы (VQA) — это обучающая задача, включающая компьютерное зрение и обработку естественного языка. Эта задача определяется следующим образом: система VQA принимает в качестве входных данных изображение и открытый вопрос на естественном языке в свободной форме об изображении и выдает ответ на естественном языке в качестве вывода. В переводе на китайский язык: система VQA принимает изображение и открытый вопрос на естественном языке в свободной форме об изображении в качестве входных данных и генерирует ответ на естественном языке в качестве выходных данных. Проще говоря, VQA — это процесс вопросов и ответов по картинке.

текст

В этой статье будут четко различаться слова «изображение» и «визуальный признак».

Abstract Note

В абстрактном разделе основное внимание в статье уделяется проблеме VQA, а общий подход заключается в усилении внимания к областям изображения, имеющим отношение к проблеме (quesion-quided attention), в ABC-CNN предлагается настраиваемая сверточная нейронная сеть на основе модели внимания (attention based configurable convolution neural network), чтобы выделить интересующую область входного изображения.

ABC-CNN определяет карта внимания для пары изображение-вопрос путем свертки карта характеристик изображения с настраиваемой сверточной ядра, полученные из семантики вопроса.

то есть настраиваемая свертка ABC-CNNkЯдро управляется и настраивается семантикой вопроса входного вопроса, извлекает карту характеристик изображения из входного изображения и объединяет ее с ядром свертки.kВыполните операцию свертки и получите соответствующую пару входного изображения-вопроса через результат свертки.attention map.

Introduction Note

Несколько ключевых моментов, поднятых в этом разделе, таковы:

  1. Интегрируйте визуальную и семантическую информацию в задачи VQA, используя ABC-CNN в качестве единой платформы.

    use ABC-CNN as a unified framework to integrate the visual and semantic infomation for VQA.

  2. Идея реализации всей ABC-CNNДвижимый проблемой, ищет проблемные области, то есть с помощью входного вопроса применить модель внимания, чтобы найти область внимания на входном изображении, извлечь признаки и провести дальнейшее обучение.

  3. Состав ABC-CNN разделен на четыре части:vision part, question understand part, answer generation part, attention extraction part/vision and question understanding part. Особенности каждой части:

    • часть зрения: извлечение визуальных признаков из изображений с помощью CNN,Извлечение карты пространственных объектов вместо одного глобального визуального объекта
    • часть понимания вопроса: в этой части используется модель LSTM [1] для получения вложений вопросов (вложения вопросов [2])
    • часть генерации ответов: генерировать ответы с помощью простого многоклассового классификатора
  4. Суть модели ABC-CNN состоит в том, чтобы выразить извлеченную информацию о внимании, управляемом вопросами, в видеquestion-guided attention map. Способ сделать этоСопоставьте входной вопрос из семантического пространства в обычное пространствоПолучите встраивание вопроса, а затем используйте встраивание вопроса для настройки ядра свертки.k,пройти черезkОперация свертки с изображением для полученияquestion-guided attention map

    It(question-guided attention map) is is achieved via a configurable convolutional neural network,where the convolutional kernels are generated by projecting the question embeddings from the semantic space into the visual space.

  5. ABC-CNN считает полученное ядро ​​сверткиkиметь связанную или последовательную связь с визуальной информацией, определяемой семантикой вопроса

  6. question-guided attention mapОтражает влияние каждой области изображения на цель.answerстепень важности. Его можно использовать для расчета пространственного веса каждой области изображения и фильтрации области/шума на изображении, не связанного с проблемой.

Некоторые вопросы по этой части
  1. как получитьquestion embeddings, Из-за глубокого понимания контента, связанного с НЛП, у меня есть сомнения относительно того, как получить отображение вопроса из семантического пространства вопроса в пространство визуальных признаков посредством встраивания вопроса.
  2. Для полученного ядра сверткиkСомневаюсь в визуальных признаках, которые могут эффективно охарактеризовать тот или иной объект

framework image

Related-Work-Note

В этой части в основном представлены предыстория проблемы VQA и проблемы описания изображения, основная идея модели внимания и настраиваемой сверточной нейронной сети.

Attention models

В этом разделе представлен подход модели внимания к извлечению признаков из изображений, то есть использование RNN для извлечения ряда областей предложения из входного изображения, изучение выходных данных скрытого состояния из декодирования LSTM и визуальных признаков, извлеченных из областей предложения. Получите необходимые веса внимания

Attention Based Configurable CNN Note

Ядром модели ABC-CNN являетсяattention extraction part, ядро ​​сверткиkбудут сочетаться с функциями изображения (особенностями изображения), чтобы получитьquestion-guided attention ma, где ядро ​​сверткиkВизуальные признаки, необходимые для характеристики вопроса

Attention Extraction

  1. ядро сверткиk

    k = σ(W_{sk}s + b_k), σ(x) = \frac{1}{1 + e−x}

    где σ — сигмовидная функция, а s — информация о семантических признаках соответствующего объекта в вопросе.

  2. question-guided attention map m

    m_{ij} = P(ATT_{ij}|I,s) = \frac{e^{z_{ij}}}{\sum_i \sum_j e^{z_{ij}}}\space\space z = k *I

    где I — особенности изображения

Question Understanding

LSTM for query processing

i_t = \sigma(W_{vi}v_t + W_{hi}h_{t-1} + b_i)
f_t = \sigma(W_{vf}v_t + W_{hf}h_{t-1} + b_f)
o_t = \sigma(W_{vo}v_t + W_{ho}h_{t-1} + b_o)
g_t = \phi(W_{vg}v_t + W_{hg}h_{t-1} + b_g)
c_t = f_t\odot c_{t-1} + v_i\odot g_t
h_t = o_t \odot \phi(c_t)

в

  1. \phiдля функции гиперболического тангенса
  2. Вход LSTM под вопросомq
  3. question qинформация о языкеsчерез вывод LSTMhнаучиться получать

Вот еще одна форма графика данных, которая лично понимает эту часть

question understanding

Image Feature Extraction

Эта часть в основном объясняет, как обработать входное изображение, чтобы получитьimage features

Метод работы заключается в том, чтобы ввести WHD изображение разделено на NN областей сетки, извлеките функции для каждой области сетки, чтобы получить окончательное NН*Дimage feature map

image feature extraction

Answer Generation

answer generation

Классификатор mutil-класса в этой части основан на трех входных данных:

  1. Исходная карта признаков изображенияI (original image feature map)
  2. Плотное встраивание задачs (dense question embedding)
  3. Карта характеристик веса вниманияI' (attention weighted feature map)

Чтобы избежать переобучения, в этой части также используется операция свертки 1*1, чтобы сделатьI'Количество каналов уменьшено, чтобы получитьI_rиспользуется для расчета конечного результатаanswer

Связанная формула

I’_i = I_i \odot m
h = g(W_{ih}I + W_{rh}I_r + W_{sh}S + b_h)

в

  1. mдля карты внимания, основанной на вопросах
  2. I’для полученной карты объектов, взвешенных по вниманию
  3. g(.)для поэлементно масштабируемой гиперболической касательной функции:g(x) = 1.7159\cdot tanh(\frac{2}{3}x)
  4. hОкончательные признаки, извлеченные для пары вопрос-изображение (final projected feature)
  5. Мультиклассовый классификатор использует ***softmax*** в качестве метода расчета.

Содержание цитаты

  1. LSTM — модель долговременной краткосрочной памяти
  2. Популярное объяснение встраивания

Эпилог

Содержание оригинальное, если есть ошибки в тексте, укажите~