Примечания к статье «Сети отношений для обнаружения объектов»

искусственный интеллект глубокое обучение компьютерное зрение

Summary of background

Ссылка на бумагу:АР Вест V.org/ABS/1711.11…
Код бумаги: еще не опубликован
До появления глубокого обучения многие методы улучшения в области обнаружения целей заключались в добавлении контекстной информации об объектах и ​​взаимосвязях между объектами в классическую модель обнаружения для повышения производительности обнаружения целей, но этот метод не кажется очень эффективен в архитектуре глубокого обучения.Это работает (я тоже думал об этом методе улучшения раньше, но развитие глубокого обучения действительно похоже на алхимию, и эффект обучения лучше, если напрямую закидывать исходные данные), это потому, что развитие глубокого обучения по-прежнему является моделью черного ящика, мейнстримом. Точка зрения состоит в том, что сверточные нейронные сети имеют большое рецептивное поле, а контекстная информация об объектах была изучена во время обучения сети.
  Эта статья является очень успешной статьей, в которой реляционная модель применяется к полю CV, поскольку на нее повлияла статья Google NLP «Внимание Inspired by is All You Need», многие формулы переменных в статье сравниваются со статьей Google. Статья Google полностью основана на Attention, без использования какой-либо структуры нейронной сети, но достигается эффект ультрасовременности. Поскольку я мало что знаю о НЛП, я не читал статью Google до прочтения этой статьи. Тем не менее, идея этой статьи очень интересна, и я считаю, что с точки зрения сочетания изобретательности модели Attention и мощных возможностей CNN по извлечению признаков будет больше улучшений, которых стоит с нетерпением ждать.

Object Relation Module

  В предыдущем методе использования CNN для обнаружения целей каждый объект идентифицировался отдельно, а в этой статье группа объектов обрабатывалась одновременно с Модулем отношений, то есть объект объединяет признаки отношений других объектов,
Преимущество заключается в том, что функции обогащаются, а размеры не меняются до и после обработки модуля отношений, а это означает, что модель может быть расширена до любой классической среды обнаружения целей на основе CNN.
Блок-схема модели выглядит следующим образом:

enter description here
   который имеет геометрические особенности для каждого объекта ф г « role = «презентация» стиль = «позиция: относительная;»>f_G(четырехмерный бокс), особенности внешнего вида ф А « role = «презентация» стиль = «позиция: относительная;»>f_A(1024 размера в тексте), входной набор данных N объектов равен { ф А н , ф г н } н знак равно 1 Н « role = «презентация» стиль = «позиция: относительная;»>\{f_A^n,f_G^n\}_{n=1}^N, для n-го объекта его относительный признак равен

(1) ф р ( н ) знак равно ∑ м ю м н . ( Вт В . ф А м ) " role="presentation" style="position: relative;">fR(n)=∑mωmn.(WV.fmA)(1) (1) ф р ( н ) знак равно ∑ м ю м н . ( Вт В . ф А м )

в Вт В « role = «презентация» стиль = «позиция: относительная;»>W_Vдля явного преобразования, ю м н « role = «презентация» стиль = «позиция: относительная;»>\omega^{mn}- вес отношения, указывающий, что объект находится под влиянием других объектов.

(2) ю м н знак равно ю г м н . е Икс п ( ю А м н ) ∑ г к н . е Икс п ( ю А к н ) " role="presentation" style="position: relative;">ωmn=ωmnG.exp(ωmnA)∑knG.exp(ωknA)(2) (2) ю м н знак равно ю г м н . е Икс п ( ю А м н ) ∑ г к н . е Икс п ( ю А к н )

   Знаменатель – это нормализация числителя, ю А м н « role = «презентация» стиль = «позиция: относительная;»>\omega_A^{mn}вес внешнего вида, рассчитанный с помощью скалярного произведения

(3) ю А м н знак равно д о т ( Вт К ф А м , Вт Вопрос ф А н ) д к " role="presentation" style="position: relative;">ωmnA=dot(WKfmA,WQfnA)dk−−√(3) (3) ю А м н знак равно д о т ( Вт К ф А м , Вт Вопрос ф А н ) д к

в Вт К « role = «презентация» стиль = «позиция: относительная;»>W_Kи Вт Вопрос « role = «презентация» стиль = «позиция: относительная;»>W_Qиспользуется для преобразования исходных функций ф А м « role = «презентация» стиль = «позиция: относительная;»>f_A^mи ф А н « role = «презентация» стиль = «позиция: относительная;»>f_A^nПроецируйте на подпространства, чтобы измерить, насколько хорошо они совпадают. Вт г м н « role = «презентация» стиль = «позиция: относительная;»>W_G^{mn}геометрический вес,

(4) W G m n = m a x { 0 , W G . ξ G ( f G m , f G n ) } " role="presentation" style="position: relative;">WmnG=max{0,WG.ξG(fmG,fnG)}(4) (4) W G m n = m a x { 0 , W G . ξ G ( f G m , f G n ) }

в Вт г м н « role = «презентация» стиль = «позиция: относительная;»>W_G^{mn}Расчет разбит на два шага

  1. Вставьте геометрические особенности двух объектов в многомерное представление, обозначаемое как ξ г « role = «презентация» стиль = «позиция: относительная;»>\xi_G, вычислить относительное положение цели m и n ( л о г ( Икс м − Икс н ю м ) , л о г ( у м − у н час м ) , л о г ( ю н ю м ) , л о г ( час н час м ) ) Т « role = «презентация» стиль = «позиция: относительная;»>(log(\frac{x_m-x_n}{\omega_m}),log(\frac{y_m-y_n}{h_m}),log(\frac{\omega_n}{\omega_m}),log(\frac{h_n}{h_m}))^T, представляющий собой четырехмерный вектор, представляющий координаты, ширину и высоту центральной точки соответственно.
  2. Сопоставьте 4-мерную матрицу относительного положения с 64-мерным вектором, а затем объедините с Вт г « role = «презентация» стиль = «позиция: относительная;»>W_GСделайте внутренний продукт, а затем передайте функцию активации ReLU.

   в формуле (1) ф р ( н )" role="презентация" style="позиция: относительная;">f_R(n)Представляет объект отношения, извлеченный n-м объектом, объект будет извлечен Н р « role = «презентация» стиль = «позиция: относительная;»>N_rреляционные признаки (16 в статье автора), а затем Н р « role = «презентация» стиль = «позиция: относительная;»>N_rОбъедините функции отношений, а затем добавьте их к функциям самого исходного n-го объекта, чтобы получить функции после слияния функций отношений.Формула выглядит следующим образом:

(5) f A n = f A n + C o n c a t [ f R 1 ( n ) , . . . , f R N r ( n ) ] , f o r a l l n " role="presentation" style="position: relative;">fnA=fnA+Concat[f1R(n),...,fNrR(n)],foralln(5) (5) f A n = f A n + C o n c a t [ f R 1 ( n ) , . . . , f R N r ( n ) ] , f o r a l l n

Чтобы соответствовать характерным соотношениям между размерами и характеристиками самого объекта, Вт В « role = «презентация» стиль = «позиция: относительная;»>W_Vда ф А м « role = «презентация» стиль = «позиция: относительная;»>f_A^mиграют роль уменьшения размерности.

Relation Networks For Object Detection

  Эта статья применяет предложенный относительный модуль к обнаружению целей Текущая архитектура обнаружения целей на основе CNN состоит из 4 шагов.

  1. Теперь предварительно обученные сетевые модели на больших наборах данных (обычно ImageNet);
  2. Извлечение признаков региона-кандидата
  3. обнаружение экземпляра
  4. Удалить повторяющиеся поля

   Основываясь на характеристиках относительного модуля, автор использует относительный модуль после каждого полностью подключенного слоя и заменяет обычно используемый алгоритм NMS для удаления повторяющихся полей обнаружения. Как показано ниже

enter description here

Relation for Instance Recognition

  В исходной модели RCNN после обработки ROI Pooling регрессия ограничивающей рамки и целевая классификация будут выполняться после двух полностью связанных слоев Шаги следующие:

enter description here

   Поскольку размер объекта не изменится после того, как относительный модуль обработает объект, относительный модуль можно добавить после каждого полносвязного слоя. Тогда процесс обнаружения экземпляра становится:

enter description here

   В приведенной выше формуле R1 и R2 выражены как количество повторений относительного модуля. Диаграмма обнаружения Instance Recognition показана на следующем рисунке.

enter description here

Relation for Duplicate Removal

Автор сначала указывает, что NMS — неоптимальный выбор, потому что это жадный алгоритм и требует ручного выбора параметров, а затем объясняет, что проблема удаления дубликатов на самом деле является проблемой бинарной классификации, то есть для каждого объекта истинности только один рамка обнаружения правильная, а остальное поле обнаружения можно считать дубликатом.
  Вход этого модуля, предложенного автором, является выходом распознавания экземпляров, то есть серией объектов обнаружения, каждый объект имеет 1024-мерные признаки, а переносимая информация включает Bbox и классификационные баллы. с 0 « role = «презентация» стиль = «позиция: относительная;»>s_0, на рисунке ниже видно, что вывод модуля является произведением s_0 и s_1, давайте посмотрим с 1 « role = «презентация» стиль = «позиция: относительная;»>s_1метод расчета. Конкретные шаги этого модуля заключаются в следующем.

  1. Во-первых, авторы отмечают, что более эффективно преобразовывать категориальные оценки в ранги, а не конкретные числовые значения. Затем преобразуйте ранг и 1024-мерную характеристику внешности в 128-мерную (через Вт ф р « role = «презентация» стиль = «позиция: относительная;»>W_{fR}и Вт ф « role = «презентация» стиль = «позиция: относительная;»>W_f)
  2. Измените признаки внешнего вида всех объектов с помощью объединенных признаков через модуль отношения.
  3. Пропустите каждый преобразованный признак через линейную классификацию (на рисунке ниже Вт с « role = «презентация» стиль = «позиция: относительная;»>W_s), а затем нормализуйте выходные данные до [0, 1] через Sigmoid.

enter description here

Модуль   relation является ядром вышеописанных шагов, потому что с помощью модуля отношения можно интегрировать Bbox, исходную функцию внешнего вида и оценку классификации, так что вся структура обнаружения объектов по-прежнему остается сквозной моделью.

   Следующая задача — определить, какой из обнаруженных объектов правильный, а какой дублирующий. Авторы впервые установили порог η" role="презентация" style="позиция: относительная;">\eta, любой вывод, превышающий этот порог, будет сохранен, а затем среди сохраненных обнаруженных объектов в качестве правильного удержания будет выбран тот, у которого больше IOU, а остальные являются дубликатами.

Experiments

  Экспериментальная часть набора данных — это набор данных COCO с 80 категориями, ResNet-50 и ResNet101 для модели CNN.

Relation for Instance Recognition

   Сначала посмотрите на эксперимент по распознаванию экземпляров. Сначала сравните распознавание экземпляров чистого 2fc и 2fc+RM (модуль отношения), а также сравните различные параметры RM.

enter description here

enter description here

enter description here
   Как видно из приведенного выше рисунка, использование ранговой стратегии действительно может повысить точность, но автор не объясняет, почему.

enter description here

Relation for Duplicate Removal

Несколько сетевых моделей, несколько сравнений параметров
enter description here

Что именно узнал модуль Relation

  Модуль Relation, предложенный автором, является хорошей исследовательской точкой. К сожалению, в статье нет хорошего объяснения того, чему научился модуль Relation. Автор сказал, что это не входит в рамки статьи. Для того, чтобы дать интуитивное объяснение модели, предложенной в статье, автор анализирует веса отношений в RM после последней fc в модуле Relation, как показано на рисунке ниже, синий цвет представляет обнаруженный объект, оранжевый поле и значение представляют пару Полезная связанная информация для этого теста.

enter description here

вопрос автора

1. На правильные делится только одна выборка, не приведет ли это к серьезному дисбалансу положительных и отрицательных выборок?
Ответ нет, сеть работает нормально, почему? Потому что автор на самом деле работает и обнаруживает, что большинство объектов имеют с 0 « role = «презентация» стиль = «позиция: относительная;»>s_0низкий балл, поэтому с 0 « role = «презентация» стиль = «позиция: относительная;»>s_0и с 1 « role = «презентация» стиль = «позиция: относительная;»>s_1мала, в результате чего л знак равно − л о г ( 1 − с 0 с 1 )" role="презентация" style="позиция: относительная;">L=-log(1-s_0s_1)и градиент ∂ л ∂ С 1 « role = «презентация» стиль = «позиция: относительная;»>\frac{\partial L}{\partial S_1}будет меньше.
2. Противоречат ли друг другу функции двух разработанных модулей? Поскольку распознавание экземпляров должно идентифицировать как можно больше Объектом оценки и целью удаления дубликатов является выбор только одного положительного образца. Автор считает, что это противоречие вызвано с 0 « role = «презентация» стиль = «позиция: относительная;»>s_0и с 1 « role = «презентация» стиль = «позиция: относительная;»>s_1Чтобы решить, высокая производительность распознавания экземпляров с 0 « role = «презентация» стиль = «позиция: относительная;»>s_0через нижний с 1 « role = «презентация» стиль = «позиция: относительная;»>s_1настроить.
3. Удаление дубликатов — это модуль, которому можно научиться.В отличие от NMS, при обучении end2end изменения в выводе распознавания экземпляров будут напрямую влиять на модуль.Вызовет ли это нестабильность? Ответ тоже нет На самом деле автор обнаружил, что метод обучения end2end лучше Автор считает, что это связано с нестабильной меткой, которая в некоторой степени действует как средняя регуляризация.