Бумага без NMS --- Интерпретация реляционных сетей для обнаружения объектов

искусственный интеллект глубокое обучение

image-20220107164710361

ссылка на код

бумажная ссылка

личный блог

проблема

В этой статье сначала предлагается текущий консенсус в области обнаружения объектов: связь между богатой контекстной информацией и объектами может лучше помочь сети в обнаружении объектов. Однако ни одна из существующих сетей не использует эту информацию должным образом, или ни одна из существующих сверточных нейронных сетей не может хорошо справиться с этими проблемами. Причина в том, что в сцене часто бывает много категорий целей, и количество категорий не определено, и количество целей также не определено. Поэтому сложно смоделировать отношения между этими объектами в соответствии с предыдущими сетями CNN. Под влиянием очень успешного Transformer в области НЛП автор предлагает адаптивную сеть внимания для обнаружения объектов. Автор называет этот модуль модулем целевых отношений. Авторы применяют этот реляционный модуль к двум задачам, одна из которыхinstancerecognitioninstance-recognitionиDuplicateremovaDuplicate-removaсцена. Первый этап проводится после извлечения особенностей предложения и перед корректировкой и переоценкой рентабельности инвестиций. Последний, примененный к этапу прогнозирования для устранения дубликатов, заменяет NMS, которая не является сквозной структурой. Конкретные этапы применения показаны на следующем рисунке:

image-20220107165406903

Решение

Структура модуля отношений

image-20220107165648497

Структура модуля отношений показана на рисунке выше. Представлено нижеWV,WQ,WV,εGW_V,W_Q,W_V, \varepsilon_Gметод расчета иfAn,fGm,fGnf_A^n,f_G^m,f_G^nконкретное значение.

Прежде чем приступить к представлению модуля Realtion, предложенного в этой статье, автор сначала рассматривает метод расчета собственного внимания.

vout=softmax(qKtdk)Vv^{out}=softmax(\frac{qK^t}{\sqrt{d_k}})V

Первое знакомствоfAnf_A^n, значит даnthn^{th}Внешний вид Особенность этой области интереса.FGnF_G^nЗначит этоnthn^{th}Функция набора этой области интереса на самом деле представляет собой простую четырехмерную ограничивающую рамку. Таким образом, для размераNNЦелевой набор , характеристики которого могут быть выражены как {(fAn,fGnf^n_A, f^n_G)}. первоеnthn^{th}Отношение цели по отношению ко всем другим целям рассчитывается следующим образом:

fR(n)=mwmn(WVfAm)f_{R}(n)=\sum_{m}w^{mn}\cdot (W_V \cdot f_A^m)

здесьwmnw^{mn}Роль в основном похожа на первую половину внимания к себе. Но все же есть некоторые отличия. Конкретные методы заключаются в следующем:

wmn=wGmnwAmnkwGknexp(wAkn)w^{mn} = \frac{w_G^{mn}\cdot w_{A}^{mn}}{\sum_{k}w_G^{kn}\cdot exp(w_A^{kn})}
wAmn=dot(WKfAm,WQfAn)dKw_A^{mn} = \frac{dot(W_Kf_A^m, W_Qf_A^n)}{\sqrt{d_K}}

Функция приведенной выше формулы состоит в том, чтобыfAmf_A^mиfAnf_A^nСпроецируйте на то же подпространство и вычислите его корреляцию. Размерность подпространстваdKd_K

wGmn=max(0,WGεG(fGm,fGn))w_G^{mn}=max(0, W_G \cdot \varepsilon_G(f_G^m, f_G^n))

εG\varepsilon_Gозначает, что(fGm,fGn)(f_G^m, f_G^n)Встраиваясь в многомерное пространство и чтобы обеспечить некоторую инвариантность к вращению и масштабу, автор не использовал исходные параметры, описывающие bbox, а внес следующие изменения:

(log(xmxnwm),log(ymynhm),log(wnwm),log(hnhm))T(log(\frac{|x_m-x_n|}{w_m}), log(\frac{|y_m - y_n|}{h_m}),log(\frac{w_n}{w_m}), log(\frac{h_n}{h_m}))^T

Размерность пространства, в которое встроена эта геометрическая особенность, равнаdgd_g. На самом деле здесьwGmnw_G^{mn}понимается как в формуле (3)wAmnw_A^{mn}вес. То есть в процессе внимания, помимо рассмотрения смысловых признаков, мы также не рассматриваем предложения, не относящиеся к геометрическим признакам. Другими словами, в уравнении (2) автор учитывает как геометрическую, так и семантическую релевантность между предложениями.

Кроме того, автор также представил дизайн внимания, похожий на мультиголовку. Количество голов используетсяNrN_rВыражать. Затем выходные данные этих головок объединяются с исходными семантическими признаками. который

fAn=fAn+Concat(fR1(n),...,fRNr(n))f^n_A=f_A^n+Concat(f_R^1(n),...,f_R^{N_r}(n))

Приведенная выше структура является основной структурой модуля отношения, разработанного автором.

Как описано в начале текста, автор использует модуль realtion на двух этапах обнаружения целей, далее будет представлено его использование в разных частях.

Использование RM в распознавании экземпляров

Исходное распознавание экземпляров использует следующую структуру:

image-20220107191420021

Автор предлагает расширенную версию головки обнаружения, которая добавляет подсеть Realtion Module между двумя уровнями FC. Его структура выглядит следующим образом:

image-20220107191545020

image-20220107191602270

Применение RM при удалении дубликатов

В этом разделе авторы сначала анализируют дефекты NMS. Хотя NMS проста, она может получить неоптимальное решение из-за своей жадной стратегии. Кроме того, связь между объектами также может помочь устранить дублирование. В связи с этим авторы пытаются отказаться от NMS, чтобы удалить повторяющиеся прогнозы. То есть методом NMS-Free. Авторы рассматривают это удаление дубликатов как проблему бинарной классификации, и для каждого эталонного блока ей может соответствовать только один обнаруженный объект. В этом случае задачу устранения дублирования можно рассматривать как задачу бинарной классификации. Поле предсказания, связанное с базовым полем, является правильным, а остальные предсказания являются повторяющимися. Этот прогноз можно сделать через сеть. Вход в эту сеть является целью каждого прогноза. Каждый объект имеет семантический признак 1-24-D, классификационную оценкуs0s_0и предсказал трехмерные ограничивающие рамки. Выход сети представляет собой двоичную классификационную оценку.s1е[0,1]s_1 \in [0,1], 1 означает правильный, 0 означает дубликат. Окончательная оценка ограничивающей рамкиs0s1s_0 \cdot s_1. То есть хороший прогноз,s0,s1s_0, s_1Он должен быть большим. Подсеть этой части показана на следующем рисунке:

image-20220107192723917

Модуль RM является основным модулем этой части сети. Для геометрических особенностей в RM автор сначалаs0s_0Выполнение встраивания рейтинга заключается в использовании рейтинга для замены исходного балла.s0s_0, а затем встроить его в многомерное пространство для получения измерения 128-D, а затем семантический признак 1024-D, соответствующий этому RoI, также преобразуется в признак 128-D, а затем эти два признака складываются вместе, в качестве семантической функции в модуле RM, а bbox — в качестве входных данных в качестве геометрической функции. Затем передайте ввод через линейный слой и softMax какs1s_1вывод,s1s_1На самом деле смысл заключается в том, выбрана ли эта RoI для привязки к GT. Это дает окончательный прогнозируемый результат.

Но с этим есть проблема, откуда берется выходная метка, ведь прогнозируемая RoI каждый раз разная, а метки о RoI в наборе данных нет, поэтому сеть не может быть обучена. В ответ на эту проблему автор предлагает указать порог IoU между эталонным полем и предсказанным bbox. Для блоков, которые соответствуют прогнозам одного и того же эталона и превышают пороговое значение, выберите блок с наибольшим баллом в качестве правильного блока, а остальные прогнозы являются повторяющимися. Таким образом получается метка блока bbox, а потеря кросс-энтропии используется в этой статье для обучения части сети.

В статье также обнаружено, что разные прогнозы обычно дают разные эффекты, когда порог равен 0,5,mAP0.5mAP_{0.5}получить максимум, когда порог равен 0,75,mAP0.75mAP_{0.75}максимум. Поэтому, чтобы получить наилучшую производительность в наборе данных COCO, автор разрабатывает несколько пороговых значений для получения более сбалансированной производительности.

эффект решения

image-20220107194151453

На приведенном выше рисунке для каждой комбинации прецизионности первая представляет результат, полученный путем объединения головки 2fc и softNMS, вторая представляет результат, полученный с помощью головки 2fc+RM+SoftNMS, а третья представляет результат 2fc из головки +RM. + е2е.

Из вышеприведенных результатов видно, что РМ, предложенный автором, значительно улучшался на разных этапах.

Эксперимент по абляции

Эксперименты по абляции в разделе Instance Recognition

Для проверки эффективности предложенного метода авторы проводят богатые эксперименты по абляции на . В части распознавания экземпляров автор исследовал, следует ли использовать геометрические функции, количество головок в mutli-head и количество модулей отношений. Результат выглядит следующим образом:

image-20220107194624603

Для геометрических объектов none означает не использовать геометрические объекты, унарный означает преобразование геометрических объектов в размеры, согласующиеся с семантическими признаками, их добавление, а другие операции не согласуются с none.

Кроме того, автор также проверил, что вышеуказанное улучшение не связано с углублением слоев сети и увеличением параметров.

image-20220107194808989

Из приведенных выше результатов видно, что FC (a) VS (b) с большим количеством параметров может обеспечить улучшение на 0,1 мАД. Однако после добавления слоя FC после (a)VS(c) производительность модели снижается.Причиной анализа может быть то, что модель снижается после увеличения количества слоев. Чтобы упростить обучение модели, автор добавил остаточный слой (a) VS (d) между слоями FC, и после добавления остаточного слоя производительность модели была улучшена на 0,3 mAP. Кроме того, авторы вводят глобальный вектор контекста 2048-D. (a) VS (e) также получил повышение 0,3 mAP. (a) VS (f) представляет влияние введения автором модуля RM на эффективность обнаружения. Кроме того, авторы также заметили, что производительность обнаружения модели также в определенной степени улучшилась после объединения агрегированных признаков, полученных после расширения области интереса в два раза, с исходными семантическими признаками 1024-D. То есть (а) против (г). Точность обнаружения улучшена с 29,6 до 30,4. На этой основе автор также добавил модуль RM. То есть (g) против (h). Авторы также провели эксперименты (i) и (j) и обнаружили, что добавление дополнительных остаточных слоев Zeng и RM не оказало существенного влияния на производительность модели.

Эксперименты по абляции в разделе «Удаление дубликатов»

Первый - это некоторые эксперименты над входными характеристиками этой части сети RM Результаты экспериментов показаны на следующем рисунке:

image-20220107200459387

Среди них рангfRf_RНи в коем случае не применимоs0s_0,s0s_0Указывает, что встраивание rand не выполняется. Нет в геометрическом блоке означает, что геометрический блок неприменим, а унарный означает, что значение аналогично предыдущему, и оно интегрировано в семантические признаки.

Кроме того, авторы сравнили предложенный метод с НМС.

image-20220107201712700

Из результатов, приведенных в таблице выше, видно, что производительность, полученная предлагаемым методом, в разной степени превосходит NMS и softNMS. Где e2e представляет собой одновременное обучение двух сетей, упомянутых выше.