Бумага без NMS --- Интерпретация реляционных сетей для обнаружения объектов

проблема

В этой статье сначала предлагается текущий консенсус в области обнаружения объектов: связь между богатой контекстной информацией и объектами может лучше помочь сети в обнаружении объектов. Однако ни одна из существующих сетей не использует эту информацию должным образом, или ни одна из существующих сверточных нейронных сетей не может хорошо справиться с этими проблемами. Причина в том, что в сцене часто бывает много категорий целей, и количество категорий не определено, и количество целей также не определено. Поэтому сложно смоделировать отношения между этими объектами в соответствии с предыдущими сетями CNN. Под влиянием очень успешного Transformer в области НЛП автор предлагает адаптивную сеть внимания для обнаружения объектов. Автор называет этот модуль модулем целевых отношений. Авторы применяют этот реляционный модуль к двум задачам, одна из которых $instance-recognition$ и $Duplicate-remova$ сцена. Первый этап проводится после извлечения особенностей предложения и перед корректировкой и переоценкой рентабельности инвестиций. Последний, примененный к этапу прогнозирования для устранения дубликатов, заменяет NMS, которая не является сквозной структурой. Конкретные этапы применения показаны на следующем рисунке:

Решение

Структура модуля отношений

Структура модуля отношений показана на рисунке выше. Представлено ниже $W_V,W_Q,W_V, \varepsilon_G$ метод расчета и $f_A^n,f_G^m,f_G^n$ конкретное значение.

Прежде чем приступить к представлению модуля Realtion, предложенного в этой статье, автор сначала рассматривает метод расчета собственного внимания.

v^{out}=softmax(\frac{qK^t}{\sqrt{d_k}})V

Первое знакомство $f_A^n$ , значит да $n^{th}$ Внешний вид Особенность этой области интереса. $F_G^n$ Значит это $n^{th}$ Функция набора этой области интереса на самом деле представляет собой простую четырехмерную ограничивающую рамку. Таким образом, для размера $N$ Целевой набор , характеристики которого могут быть выражены как {( $f^n_A, f^n_G$ )}. первое $n^{th}$ Отношение цели по отношению ко всем другим целям рассчитывается следующим образом:

f_{R}(n)=\sum_{m}w^{mn}\cdot (W_V \cdot f_A^m)

здесь $w^{mn}$ Роль в основном похожа на первую половину внимания к себе. Но все же есть некоторые отличия. Конкретные методы заключаются в следующем:

w^{mn} = \frac{w_G^{mn}\cdot w_{A}^{mn}}{\sum_{k}w_G^{kn}\cdot exp(w_A^{kn})}

w_A^{mn} = \frac{dot(W_Kf_A^m, W_Qf_A^n)}{\sqrt{d_K}}

Функция приведенной выше формулы состоит в том, чтобы $f_A^m$ и $f_A^n$ Спроецируйте на то же подпространство и вычислите его корреляцию. Размерность подпространства $d_K$

w_G^{mn}=max(0, W_G \cdot \varepsilon_G(f_G^m, f_G^n))

$\varepsilon_G$ означает, что $(f_G^m, f_G^n)$ Встраиваясь в многомерное пространство и чтобы обеспечить некоторую инвариантность к вращению и масштабу, автор не использовал исходные параметры, описывающие bbox, а внес следующие изменения:

(log(\frac{|x_m-x_n|}{w_m}), log(\frac{|y_m - y_n|}{h_m}),log(\frac{w_n}{w_m}), log(\frac{h_n}{h_m}))^T

Размерность пространства, в которое встроена эта геометрическая особенность, равна $d_g$ . На самом деле здесь $w_G^{mn}$ понимается как в формуле (3) $w_A^{mn}$ вес. То есть в процессе внимания, помимо рассмотрения смысловых признаков, мы также не рассматриваем предложения, не относящиеся к геометрическим признакам. Другими словами, в уравнении (2) автор учитывает как геометрическую, так и семантическую релевантность между предложениями.

Кроме того, автор также представил дизайн внимания, похожий на мультиголовку. Количество голов используется $N_r$ Выражать. Затем выходные данные этих головок объединяются с исходными семантическими признаками. который

f^n_A=f_A^n+Concat(f_R^1(n),...,f_R^{N_r}(n))

Приведенная выше структура является основной структурой модуля отношения, разработанного автором.

Как описано в начале текста, автор использует модуль realtion на двух этапах обнаружения целей, далее будет представлено его использование в разных частях.

Использование RM в распознавании экземпляров

Исходное распознавание экземпляров использует следующую структуру:

Автор предлагает расширенную версию головки обнаружения, которая добавляет подсеть Realtion Module между двумя уровнями FC. Его структура выглядит следующим образом:

Применение RM при удалении дубликатов

В этом разделе авторы сначала анализируют дефекты NMS. Хотя NMS проста, она может получить неоптимальное решение из-за своей жадной стратегии. Кроме того, связь между объектами также может помочь устранить дублирование. В связи с этим авторы пытаются отказаться от NMS, чтобы удалить повторяющиеся прогнозы. То есть методом NMS-Free. Авторы рассматривают это удаление дубликатов как проблему бинарной классификации, и для каждого эталонного блока ей может соответствовать только один обнаруженный объект. В этом случае задачу устранения дублирования можно рассматривать как задачу бинарной классификации. Поле предсказания, связанное с базовым полем, является правильным, а остальные предсказания являются повторяющимися. Этот прогноз можно сделать через сеть. Вход в эту сеть является целью каждого прогноза. Каждый объект имеет семантический признак 1-24-D, классификационную оценку $s_0$ и предсказал трехмерные ограничивающие рамки. Выход сети представляет собой двоичную классификационную оценку. $s_1 \in [0,1]$ , 1 означает правильный, 0 означает дубликат. Окончательная оценка ограничивающей рамки $s_0 \cdot s_1$ . То есть хороший прогноз, $s_0, s_1$ Он должен быть большим. Подсеть этой части показана на следующем рисунке:

Модуль RM является основным модулем этой части сети. Для геометрических особенностей в RM автор сначала $s_0$ Выполнение встраивания рейтинга заключается в использовании рейтинга для замены исходного балла. $s_0$ , а затем встроить его в многомерное пространство для получения измерения 128-D, а затем семантический признак 1024-D, соответствующий этому RoI, также преобразуется в признак 128-D, а затем эти два признака складываются вместе, в качестве семантической функции в модуле RM, а bbox — в качестве входных данных в качестве геометрической функции. Затем передайте ввод через линейный слой и softMax как $s_1$ вывод, $s_1$ На самом деле смысл заключается в том, выбрана ли эта RoI для привязки к GT. Это дает окончательный прогнозируемый результат.

Но с этим есть проблема, откуда берется выходная метка, ведь прогнозируемая RoI каждый раз разная, а метки о RoI в наборе данных нет, поэтому сеть не может быть обучена. В ответ на эту проблему автор предлагает указать порог IoU между эталонным полем и предсказанным bbox. Для блоков, которые соответствуют прогнозам одного и того же эталона и превышают пороговое значение, выберите блок с наибольшим баллом в качестве правильного блока, а остальные прогнозы являются повторяющимися. Таким образом получается метка блока bbox, а потеря кросс-энтропии используется в этой статье для обучения части сети.

В статье также обнаружено, что разные прогнозы обычно дают разные эффекты, когда порог равен 0,5, $mAP_{0.5}$ получить максимум, когда порог равен 0,75, $mAP_{0.75}$ максимум. Поэтому, чтобы получить наилучшую производительность в наборе данных COCO, автор разрабатывает несколько пороговых значений для получения более сбалансированной производительности.

эффект решения

На приведенном выше рисунке для каждой комбинации прецизионности первая представляет результат, полученный путем объединения головки 2fc и softNMS, вторая представляет результат, полученный с помощью головки 2fc+RM+SoftNMS, а третья представляет результат 2fc из головки +RM. + е2е.

Из вышеприведенных результатов видно, что РМ, предложенный автором, значительно улучшался на разных этапах.

Эксперимент по абляции

Эксперименты по абляции в разделе Instance Recognition

Для проверки эффективности предложенного метода авторы проводят богатые эксперименты по абляции на . В части распознавания экземпляров автор исследовал, следует ли использовать геометрические функции, количество головок в mutli-head и количество модулей отношений. Результат выглядит следующим образом:

Для геометрических объектов none означает не использовать геометрические объекты, унарный означает преобразование геометрических объектов в размеры, согласующиеся с семантическими признаками, их добавление, а другие операции не согласуются с none.

Кроме того, автор также проверил, что вышеуказанное улучшение не связано с углублением слоев сети и увеличением параметров.

Из приведенных выше результатов видно, что FC (a) VS (b) с большим количеством параметров может обеспечить улучшение на 0,1 мАД. Однако после добавления слоя FC после (a)VS(c) производительность модели снижается.Причиной анализа может быть то, что модель снижается после увеличения количества слоев. Чтобы упростить обучение модели, автор добавил остаточный слой (a) VS (d) между слоями FC, и после добавления остаточного слоя производительность модели была улучшена на 0,3 mAP. Кроме того, авторы вводят глобальный вектор контекста 2048-D. (a) VS (e) также получил повышение 0,3 mAP. (a) VS (f) представляет влияние введения автором модуля RM на эффективность обнаружения. Кроме того, авторы также заметили, что производительность обнаружения модели также в определенной степени улучшилась после объединения агрегированных признаков, полученных после расширения области интереса в два раза, с исходными семантическими признаками 1024-D. То есть (а) против (г). Точность обнаружения улучшена с 29,6 до 30,4. На этой основе автор также добавил модуль RM. То есть (g) против (h). Авторы также провели эксперименты (i) и (j) и обнаружили, что добавление дополнительных остаточных слоев Zeng и RM не оказало существенного влияния на производительность модели.

Эксперименты по абляции в разделе «Удаление дубликатов»

Первый - это некоторые эксперименты над входными характеристиками этой части сети RM Результаты экспериментов показаны на следующем рисунке:

Среди них ранг $f_R$ Ни в коем случае не применимо $s_0$ , $s_0$ Указывает, что встраивание rand не выполняется. Нет в геометрическом блоке означает, что геометрический блок неприменим, а унарный означает, что значение аналогично предыдущему, и оно интегрировано в семантические признаки.

Кроме того, авторы сравнили предложенный метод с НМС.

Из результатов, приведенных в таблице выше, видно, что производительность, полученная предлагаемым методом, в разной степени превосходит NMS и softNMS. Где e2e представляет собой одновременное обучение двух сетей, упомянутых выше.