SAPD: обновление FSAF, взвешивание разумных потерь и выбор функций пирамиды | ECCV 2020

алгоритм
SAPD: обновление FSAF, взвешивание разумных потерь и выбор функций пирамиды | ECCV 2020

Нацелившись на проблему оптимизации алгоритма обнаружения опорных точек, в статье предлагается метод SAPD, который использует разные веса потерь для опорных точек в разных положениях, а также взвешивает и обучает разные слои пирамиды признаков вместе, что устраняет большинство искусственно сформулированных правил. , Следите за весами самой сети для обучения

  Источник: Заметки по разработке алгоритмов Xiaofei Public Account.

Диссертация: Обнаружение мягких опорных точек

Introduction


Методы обнаружения без привязки делятся на категорию опорной точки и категорию ключевой точки По сравнению с категорией ключевой точки категория опорной точки имеет следующие преимущества: 1) более простая структура сети 2) более быстрое обучение и скорость вывода 3) лучшее использование пирамиды признаков 4) Более гибкий выбор пирамиды признаков, но точность категории точек привязки, как правило, ниже, чем у категории ключевых точек, поэтому в статье основное внимание уделяется изучению факторов, препятствующих точности определения точек привязки. категория и предлагает С SAPD (Soft Anchor-Point Detecto) есть следующие два основных момента:

  • Мягко взвешенные опорные точки. Алгоритм опорных точек обычно устанавливает точки, которые удовлетворяют геометрическому соотношению, как положительные точки выборки во время обучения, а вес значения потери равен 1, что приводит к тому, что точки с менее точным позиционированием иногда классифицируются с большей достоверностью. На самом деле сложность регрессии точек в разных позициях различна, и вес значения потери точки ближе к целевому краю должен быть ниже, чтобы сеть могла сосредоточиться на обучении качественных опорных точек.
  • Мягко выбранные уровни пирамиды. Алгоритм точки привязки выбирает один слой признаков в пирамиде признаков для обучения в каждом раунде обучения и игнорирует другие слои, что в определенной степени расточительно. Поскольку отклик других слоев не такой сильный, как у выбранного слоя, но его распределение признаков должно быть похоже на выбранный слой, поэтому несколько слоев можно обучать с разными весами одновременно.

Detection Formulation with Anchor Points


  Сначала в документе представлена ​​общая структура сети и метод обучения метода обнаружения цели точки привязки.

Network architecture

  Сеть включает в себя магистральную сеть и пирамиду функций. Каждый уровень пирамиды функций содержит головку обнаружения, а уровень пирамиды функций помечен какPlP_l,llэто количество слоев, а размер карты объектов слоя является входомW×HW\times Hиз1/sl1/s_lраз,sl=2ls_l=2^lдля шага. в целом,llДиапазон от 3 до 7. Головка обнаружения содержит подсеть классификации и подсеть регрессии.Все подсети 53×33\times 3Запускаются сверточные слои, затем каждая позиция прогнозируется отдельноKKДостоверность классификации и 4 значения смещения, значения смещения — это расстояние от текущей позиции до целевой границы.

Supervision targets

  Для целиB=(c,x,y,w,h)B=(c, x, y, w, h), центральная площадьBv=(c,x,y,ϵw,ϵh)B_v=(c, x, y, \epsilon w, \epsilon h),ϵ\epsilonявляется коэффициентом масштабирования. когда цельBBдается уровень пирамидыPlP_lи точка привязкиplijp_{lij}родыBvB_vвнутри считается, чтоplijp_{lij}является положительной точкой выборки, а целью классификации являетсяcc, целью регрессии является нормализованное расстояниеd=(dl,dt,dr,db)d=(d^l, d^t, d^r, d^b), — расстояния от текущего положения до четырех границ цели:

zz- нормировочный коэффициент. Для отрицательных точек выборки целью классификации является фон (c=0c=0), цель позиционирования равна нулю, и обучение не требуется.

Loss functions

  Сеть выводит каждую точкуplijp_{lij}изKKВывод классификации измеренийc^lij\hat{c}_{lij}и вывод 4-мерной регрессии позицииd^lij\hat{d}_{lij}, используя фокальные потери и потери IoU для обучения соответственно:

  Общие потери сети представляют собой сумму положительных и отрицательных точек выборки, разделенную на количество положительных точек выборки:

Soft Anchor-Point Detector


  Основа SAPD показана на рис. 3, а именно точки привязки с мягким взвешиванием и уровни пирамиды с мягким выбором, которые используются для настройки весов точек привязки и использования нескольких слоев пирамид функций для обучения.

Soft-Weighted Anchor Points

  • False attention

Основываясь на традиционной стратегии обучения, в документе отмечается, что точность позиционирования некоторых выходных данных опорных точек низкая, но достоверность их классификации высока, как показано на рисунке 4a, что приведет к тому, что NMS не сохранит наиболее точные результаты прогнозирования после позиционирование. Возможная причина в том, что политика обучения одинаково относится к центральному региону.BvB_vТочка привязки внутри. На самом деле, чем ближе точка к целевой границе, тем труднее вернуться к точной целевой позиции, поэтому значение потерь различных опорных точек должно быть взвешено в соответствии с положением, чтобы сеть могла сосредоточиться на изучение качественных опорных точек, а не с неохотой Те точки, к которым труднее вернуться, также усваиваются хорошо.

  • Our solution

  Для решения упомянутых выше проблем в документе предлагается концепция мягкого взвешивания, которая представляет собой значение потерь каждой точки привязки.LlijL_{lij}добавить весwlijw_{lij}, вес определяется положением точки и границей цели.Отрицательная точка выборки не участвует в расчете регрессии положения, поэтому она напрямую устанавливается в 1, а полный расчет веса:

ffотражатьplijp_{lij}с цельюBBФункция расстояния до границы, установка бумагиffфункция центрированностиf(plij,B)=[min(dlijl,dlijr)min(dlijt,dlijb)max(dlijl,dlijr)max(dlijt,dlijb)]ηf(p_{lij}, B)=[\frac{min(d^l_{lij}, d^r_{lij})min(d^t_{lij}, d^b_{lij})}{max(d^l_{lij}, d^r_{lij})max(d^t_{lij}, d^b_{lij})}]^{\eta}

η\etaКонкретный эффект можно увидеть на рисунке 3, чтобы уменьшить величину. После мягкого взвешивания вес точки привязки становится горной вершиной.

Soft-Selected Pyramid Levels

  • Feature selection

  Метод без привязки обычно выбирает один из слоев пирамиды признаков для обучения в каждом раунде, и эффект от выбора разных слоев совершенно другой. В документе с помощью визуализации было обнаружено, что области активации разных слоев на самом деле похожи, как показано на рисунке 5, а это означает, что характеристики разных слоев можно прогнозировать совместно. На основании вышеизложенного автор считает, что существует два критерия для выбора соответствующего уровня пирамиды:

  • Выбор должен основываться на собственных значениях, а не на правилах, созданных человеком.

  • Позволяет обучать каждую цель с помощью нескольких слоев функций, где каждый слой должен вносить значительный вклад в результаты прогнозирования.

  • Our solution

Чтобы соответствовать двум вышеуказанным критериям, в документе предлагается использовать сеть выбора признаков для прогнозирования веса каждого слоя для цели Общий процесс показан на рисунке 6. RoIAlign используется для извлечения признаков соответствующей области целевого объекта. каждый слой, объединить их в сеть выбора признаков, а затем вывести весовой вектор. Эффект можно увидеть на рисунке 3. Вершины весов каждого слоя пирамиды похожи по форме, но отличаются по высоте. Обратите внимание, что сеть выбора признаков используется только на этапе обучения.

Структура сети выбора признаков очень проста, как показано в таблице 1. Она обучается вместе с детектором. GT является горячим вектором. Значение указано в соответствии с методом минимальных потерь FSAF. Для получения подробной информации, пожалуйста обратитесь к предыдущей статье о FSAF. До сих пор цельBBпо весуwlBw^B_lОн связан с каждым слоем пирамиды в сочетании с предыдущим софт-взвешиванием, вес опорной точки составляет:

  Потеря полной модели представляет собой взвешенную потерю точки привязки плюс потерю сети выбора признаков:

Experiment


  Сравнительный эксперимент каждого модуля.

  Сравните с алгоритмом SOTA.

Conclusion


Нацелившись на проблему оптимизации алгоритма обнаружения опорных точек, в статье предлагается метод SAPD, который использует разные веса потерь для опорных точек в разных положениях, а также взвешивает и обучает разные слои пирамиды признаков вместе, что устраняет большинство искусственно сформулированных правил. , Следите за весами самой сети для обучения.



Если эта статья была вам полезна, ставьте лайк или смотрите~

Для получения дополнительной информации, пожалуйста, обратите внимание на общедоступную учетную запись WeChat [Примечания по разработке алгоритмов Xiaofei].

work-life balance.