В статье предлагается модуль целевых отношений, основанный на механизме внимания НЛП, который улучшает характеристики текущей цели по сравнению с другими целями, а также может заменить НМС для сквозного удаления повторяющихся результатов.Идея очень новая и эффект хороший.

Источник: Заметки по разработке алгоритмов Xiaofei Public Account.

Диссертация: Реляционные сети для обнаружения объектов

Адрес бумаги:АР Вест V.org/ABS/1711.11…
Код диссертации:GitHub.com/ms RAC ver/Re…

Introduction

Большинство текущих алгоритмов обнаружения целей по-прежнему ориентированы на индивидуальную идентификацию целей и не пытаются выявить взаимосвязь между целями во время обучения.Ограничено текущей простой сетевой структурой, невозможно смоделировать нерегулярные целевые отношения. Ссылаясь на механизм внимания при обработке естественного языка, в статье предлагается адаптивный механизм внимания для обнаружения объектов — модуль отношения объектов, который изучает отношения между объектами для улучшения характеристик и удаления повторяющихся результатов.
Цель обнаружения имеет двумерное пространственное распределение и различные соотношения сторон, что сложнее, чем текстовая сцена, поэтому в статье вес внимания НЛП расширен и разделен на два веса:

Веса, созданные на основе целевых функций, аналогичны весам НЛП.
Относительное геометрическое положение гарантирует трансляционную инвариантность на основе весов, генерируемых относительным геометрическим положением цели.

Модуль целевого отношения получает переменные входные данные и выполняет параллельные вычисления. Это дифференцируемая операция на месте. Его можно использовать в качестве базового строительного блока для встраивания в любой алгоритм обнаружения цели. Метод встраивания показан на рисунке 1. Это используется для распознавания целей и удаления дубликатов целей:

Часть распознавания целей (распознавание экземпляров): используйте модуль взаимосвязей целей, чтобы объединить все обнаруженные цели для расширения возможностей, а затем выполните последующее распознавание.
Удаление повторяющихся целей (du-plicate remova): после завершения идентификации традиционная практика использует NMS для удаления повторяющихся целей, а в документе вместо этой практики используется упрощенная сеть сетевых отношений.

Object Relation Module

Традиционным механизмом внимания является ScaledDot-Product Attention, который рассчитывается как:

Данная цель запроса $q$ , вычисления и другие цели $K$ Подобие , затем softmax нормируется на вес и, наконец, умножается на значение каждого вектора $V$ Получаются взвешенные функции, и эти три значения обычно получаются путем встраивания целевых функций.
Для расчета сходства при обнаружении объектов каждый объект содержит геометрические признаки. $f_G$ и особенности внешности $f_A$ ,данный $N$ цели $\{(f^n_A, f^n_G)\}^N_{n=1}$ , который может вычислить функцию отношения каждой цели по отношению к другим целям $f_R(n)$ :

Признак отношения фактически является взвешенной суммой признаков внешнего вида всех целей, $W_V$ является линейным изменением, что эквивалентно встраиванию признака внешнего вида в качестве значения формулы 1 $V$ . масса $w^{mn}$ Указывает важность других целей по отношению к текущей цели, рассчитывается как:

Уравнение 3 фактически эквивалентно softmax в уравнении 1, с той лишь разницей, что за исключением веса внешнего вида $w^{mn}_A$ , дополнительно используя геометрические веса $w^{mn}_G$ взвешенный.
Внешний вид вес $w^{mn}_A$ Расчет аналогичен расчету в скобках softmax формулы 1, а именно:

$W_K$ и $W_Q$ То же самое линейное изменение, и в формулу 1 встраиваются признаки внешнего вида цели сравнения и текущей цели соответственно. $K$ и $Q$ , размер элемента после встраивания $d_k$ .
геометрический вес $w^{mn}_G$ рассчитывается как:

Геометрический элемент обычно представляет собой простой четырехмерный прямоугольник, поэтому формула 5 включает два этапа расчета геометрического веса:

Передайте геометрические особенности текущей цели и цели сравнения через $\varepsilon_G$ При встраивании в многомерные объекты для обеспечения перевода и неизменности размеров геометрические объекты преобразуются в относительные значения. $(log(\frac{|x_m-x_n|}{w_m}), log(\frac{|y_m-y_n|}{h_m}), log(\frac{w_n}{w_m}), log(\frac{h_n}{h_m}) )$ , метод встраивания такой же, как кодирование положения в Attention Is All You Need, с использованием функций синуса и косинуса.
использовать $W_G$ Преобразуйте многомерные геометрические объекты в скалярные веса, установите 0, если меньше 0.

В статье также были опробованы другие методы использования геометрических признаков: 1) никакие, непосредственно $w^{mn}_G$ Установите 1,0 для расчета веса, то есть не используется. 2) унарный, который напрямую объединяет многомерные геометрические особенности с внешними признаками, а затем вычисляет веса как никакие. В табл. 1 в экспериментальной части проведено сравнение соответствующих результатов, и выбранный в статье метод взвешивания формулы 5 является более эффективным.

При реализации, аналогично многоголовому вниманию, модуль объектных отношений содержит $N_r$ реляционные функции, размерность каждой функции является входной функцией $f^m_A$ из $\frac{1}{N_r}$ , На рисунке 2 может быть небольшая проблема, написаны два геометрических признака, но написан только один признак внешнего вида, каждый может понять его по формуле, и, наконец, признаки внешнего вида входной цели усиливаются добавлением:

Логика расчета модуля целевого отношения показана в Алгоритме 1, а его пространственная и временная сложность:

Вообще говоря, общий расчет модуля целевого отношения не очень велик, а размер выходного объекта такой же, как размер входного объекта, который можно использовать в качестве основного строительного блока для встраивания в любую сеть.

Relation Networks For Object Detection

В документе в основном обсуждается встраивание модуля целевых отношений в сеть обнаружения целей на основе региона. Сеть обнаружения целей на основе региона обычно включает четыре шага: 1) Генерация всего признака изображения через магистральную сеть 2) Генерация региональных признаков кадр-кандидат 3) Выполнить идентификацию и настройку каждого экземпляра 4) Чтобы удалить повторяющиеся результаты обнаружения, встраивание модуля целевого отношения в основном выполняется на шагах 3 и 4.

Relation for Instance Recognition

Целевая классификация и целевая регрессия обычно используют два 1024-мерных полностью связанных слоя для обработки функций пула области интереса цели:

Модуль целевых отношений может напрямую улучшать 1024 измерения всех целей, не изменяя размер функции, не только может быть вставлен в любое место, но также может быть сложен несколько раз:

$r_1$ и $r_2$ Для количества повторений целевого модуля отношений добавление целевого модуля отношений может нацеливать функции и повышать точность распознавания.Визуализация формулы 10 показана на рисунке а.

Relation for Duplicate Removal

Задача удаления повторяющихся целей сама по себе должна исчерпать взаимосвязь между целями, такими как эвристическая NMS, цели с высокой оценкой могут стереть близлежащие цели с низкой оценкой. Хотя NMS очень прост, его метод дедупликации не всегда оптимален, поэтому в статье для удаления дубликатов целей используется модуль отношения целей.

Как показано на рисунке b, введите оценку цели, 1024-мерную характеристику внешнего вида и геометрическую характеристику, повторное удаление цели включает следующие шаги:

Целевая оценка преобразуется в ранг, метод встраивания геометрических признаков используется для преобразования оценки в 128-мерные признаки, признаки внешнего вида сокращаются до 128-мерных признаков, и добавляются два признака.
Как и модуль целевых отношений, описанный ранее, он вычисляется с другими целевыми объектами и выводит реляционные признаки.
через линейное изменение $W_s$ и вероятность выхода сигмовидной функции $s_1\in [0, 1]$ , взвешивая исходную оценку.
Оценка выше порога является окончательным результатом.

Используйте итерацию перекрестной энтропийной потери непосредственно на окончательной оценке во время обучения, хотя большинство целей повторяются, поскольку их окончательные оценки малы, это не вызовет большого смещения в сети. При выводе сначала отфильтруйте один раунд в соответствии с классификационной оценкой, что может уменьшить объем вычислений.Фактическое измерение бумаги увеличивается примерно на 2 мс, а NMS и SoftNMS увеличиваются примерно на 5 мс.

Experiments

Сравнительный эксперимент настройки каждого положения.

Повторное сравнение эффекта дедупликации цели.

Сравнивая эффекты в каждой сети, сравните эффекты 2fc+SoftNMS, 2fc+RM+SoftNMS и 2fc+RM+e2e соответственно.

Conclusion

В статье предлагается модуль целевых отношений, основанный на механизме внимания НЛП, который улучшает характеристики текущей цели по сравнению с другими целями, а также может заменить НМС для сквозного удаления повторяющихся результатов.Идея очень новая и эффект хороший.

Если эта статья была вам полезна, ставьте лайк или смотрите~

Для получения дополнительной информации, пожалуйста, обратите внимание на общедоступную учетную запись WeChat [Примечания по разработке алгоритмов Xiaofei].

work-life balance.