RelationNet: изучение отношения объектов для улучшения функций и удаления NMS | CVPR 2018

глубокое обучение
RelationNet: изучение отношения объектов для улучшения функций и удаления NMS | CVPR 2018

В статье предлагается модуль целевых отношений, основанный на механизме внимания НЛП, который улучшает характеристики текущей цели по сравнению с другими целями, а также может заменить НМС для сквозного удаления повторяющихся результатов.Идея очень новая и эффект хороший.

  Источник: Заметки по разработке алгоритмов Xiaofei Public Account.

Диссертация: Реляционные сети для обнаружения объектов

Introduction


  Большинство текущих алгоритмов обнаружения целей по-прежнему ориентированы на индивидуальную идентификацию целей и не пытаются выявить взаимосвязь между целями во время обучения.Ограничено текущей простой сетевой структурой, невозможно смоделировать нерегулярные целевые отношения. Ссылаясь на механизм внимания при обработке естественного языка, в статье предлагается адаптивный механизм внимания для обнаружения объектов — модуль отношения объектов, который изучает отношения между объектами для улучшения характеристик и удаления повторяющихся результатов.
Цель обнаружения имеет двумерное пространственное распределение и различные соотношения сторон, что сложнее, чем текстовая сцена, поэтому в статье вес внимания НЛП расширен и разделен на два веса:

  • Веса, созданные на основе целевых функций, аналогичны весам НЛП.
  • Относительное геометрическое положение гарантирует трансляционную инвариантность на основе весов, генерируемых относительным геометрическим положением цели.

Модуль целевого отношения получает переменные входные данные и выполняет параллельные вычисления. Это дифференцируемая операция на месте. Его можно использовать в качестве базового строительного блока для встраивания в любой алгоритм обнаружения цели. Метод встраивания показан на рисунке 1. Это используется для распознавания целей и удаления дубликатов целей:

  • Часть распознавания целей (распознавание экземпляров): используйте модуль взаимосвязей целей, чтобы объединить все обнаруженные цели для расширения возможностей, а затем выполните последующее распознавание.
  • Удаление повторяющихся целей (du-plicate remova): после завершения идентификации традиционная практика использует NMS для удаления повторяющихся целей, а в документе вместо этой практики используется упрощенная сеть сетевых отношений.

Object Relation Module


  Традиционным механизмом внимания является ScaledDot-Product Attention, который рассчитывается как:

  Данная цель запросаqq, вычисления и другие целиKKПодобие , затем softmax нормируется на вес и, наконец, умножается на значение каждого вектораVVПолучаются взвешенные функции, и эти три значения обычно получаются путем встраивания целевых функций.
Для расчета сходства при обнаружении объектов каждый объект содержит геометрические признаки.fGf_Gи особенности внешностиfAf_A,данныйNNцели{(fAn,fGn)}n=1N\{(f^n_A, f^n_G)\}^N_{n=1}, который может вычислить функцию отношения каждой цели по отношению к другим целямfR(n)f_R(n):

  Признак отношения фактически является взвешенной суммой признаков внешнего вида всех целей,WVW_Vявляется линейным изменением, что эквивалентно встраиванию признака внешнего вида в качестве значения формулы 1VV. массаwmnw^{mn}Указывает важность других целей по отношению к текущей цели, рассчитывается как:

  Уравнение 3 фактически эквивалентно softmax в уравнении 1, с той лишь разницей, что за исключением веса внешнего видаwAmnw^{mn}_A, дополнительно используя геометрические весаwGmnw^{mn}_Gвзвешенный.
Внешний вид весwAmnw^{mn}_AРасчет аналогичен расчету в скобках softmax формулы 1, а именно:

WKW_KиWQW_QТо же самое линейное изменение, и в формулу 1 встраиваются признаки внешнего вида цели сравнения и текущей цели соответственно.KKиQQ, размер элемента после встраиванияdkd_k.
геометрический весwGmnw^{mn}_Gрассчитывается как:

  Геометрический элемент обычно представляет собой простой четырехмерный прямоугольник, поэтому формула 5 включает два этапа расчета геометрического веса:

  • Передайте геометрические особенности текущей цели и цели сравнения черезεG\varepsilon_GПри встраивании в многомерные объекты для обеспечения перевода и неизменности размеров геометрические объекты преобразуются в относительные значения.(log(xmxnwm),log(ymynhm),log(wnwm),log(hnhm))(log(\frac{|x_m-x_n|}{w_m}), log(\frac{|y_m-y_n|}{h_m}), log(\frac{w_n}{w_m}), log(\frac{h_n}{h_m}) ), метод встраивания такой же, как кодирование положения в Attention Is All You Need, с использованием функций синуса и косинуса.
  • использоватьWGW_GПреобразуйте многомерные геометрические объекты в скалярные веса, установите 0, если меньше 0.

  В статье также были опробованы другие методы использования геометрических признаков: 1) никакие, непосредственноwGmnw^{mn}_GУстановите 1,0 для расчета веса, то есть не используется. 2) унарный, который напрямую объединяет многомерные геометрические особенности с внешними признаками, а затем вычисляет веса как никакие. В табл. 1 в экспериментальной части проведено сравнение соответствующих результатов, и выбранный в статье метод взвешивания формулы 5 является более эффективным.

  При реализации, аналогично многоголовому вниманию, модуль объектных отношений содержитNrN_rреляционные функции, размерность каждой функции является входной функциейfAmf^m_Aиз1Nr\frac{1}{N_r}, На рисунке 2 может быть небольшая проблема, написаны два геометрических признака, но написан только один признак внешнего вида, каждый может понять его по формуле, и, наконец, признаки внешнего вида входной цели усиливаются добавлением:

  Логика расчета модуля целевого отношения показана в Алгоритме 1, а его пространственная и временная сложность:

  Вообще говоря, общий расчет модуля целевого отношения не очень велик, а размер выходного объекта такой же, как размер входного объекта, который можно использовать в качестве основного строительного блока для встраивания в любую сеть.

Relation Networks For Object Detection


В документе в основном обсуждается встраивание модуля целевых отношений в сеть обнаружения целей на основе региона. Сеть обнаружения целей на основе региона обычно включает четыре шага: 1) Генерация всего признака изображения через магистральную сеть 2) Генерация региональных признаков кадр-кандидат 3) Выполнить идентификацию и настройку каждого экземпляра 4) Чтобы удалить повторяющиеся результаты обнаружения, встраивание модуля целевого отношения в основном выполняется на шагах 3 и 4.

Relation for Instance Recognition

  Целевая классификация и целевая регрессия обычно используют два 1024-мерных полностью связанных слоя для обработки функций пула области интереса цели:

  Модуль целевых отношений может напрямую улучшать 1024 измерения всех целей, не изменяя размер функции, не только может быть вставлен в любое место, но также может быть сложен несколько раз:

r1r_1иr2r_2Для количества повторений целевого модуля отношений добавление целевого модуля отношений может нацеливать функции и повышать точность распознавания.Визуализация формулы 10 показана на рисунке а.

Relation for Duplicate Removal

  Задача удаления повторяющихся целей сама по себе должна исчерпать взаимосвязь между целями, такими как эвристическая NMS, цели с высокой оценкой могут стереть близлежащие цели с низкой оценкой. Хотя NMS очень прост, его метод дедупликации не всегда оптимален, поэтому в статье для удаления дубликатов целей используется модуль отношения целей.

  Как показано на рисунке b, введите оценку цели, 1024-мерную характеристику внешнего вида и геометрическую характеристику, повторное удаление цели включает следующие шаги:

  • Целевая оценка преобразуется в ранг, метод встраивания геометрических признаков используется для преобразования оценки в 128-мерные признаки, признаки внешнего вида сокращаются до 128-мерных признаков, и добавляются два признака.
  • Как и модуль целевых отношений, описанный ранее, он вычисляется с другими целевыми объектами и выводит реляционные признаки.
  • через линейное изменениеWsW_sи вероятность выхода сигмовидной функцииs1е[0,1]s_1\in [0, 1], взвешивая исходную оценку.
  • Оценка выше порога является окончательным результатом.

  Используйте итерацию перекрестной энтропийной потери непосредственно на окончательной оценке во время обучения, хотя большинство целей повторяются, поскольку их окончательные оценки малы, это не вызовет большого смещения в сети. При выводе сначала отфильтруйте один раунд в соответствии с классификационной оценкой, что может уменьшить объем вычислений.Фактическое измерение бумаги увеличивается примерно на 2 мс, а NMS и SoftNMS увеличиваются примерно на 5 мс.

Experiments


  Сравнительный эксперимент настройки каждого положения.

  Повторное сравнение эффекта дедупликации цели.

  Сравнивая эффекты в каждой сети, сравните эффекты 2fc+SoftNMS, 2fc+RM+SoftNMS и 2fc+RM+e2e соответственно.

Conclusion


В статье предлагается модуль целевых отношений, основанный на механизме внимания НЛП, который улучшает характеристики текущей цели по сравнению с другими целями, а также может заменить НМС для сквозного удаления повторяющихся результатов.Идея очень новая и эффект хороший.



Если эта статья была вам полезна, ставьте лайк или смотрите~

Для получения дополнительной информации, пожалуйста, обратите внимание на общедоступную учетную запись WeChat [Примечания по разработке алгоритмов Xiaofei].

work-life balance.