Общая функция пирамидальной сети FPN и ее вариантов

искусственный интеллект
  • Я давно не писал статьи (извините, что бреду), и недавно присматривался к аренде домов в Пекине (это действительно дорого).
  • Предупреждаю, в последнее время ничего не происходило.Основываясь на моих многолетних стратегиях работы с ценными бумагами и моих собственных знаниях простого алгоритма временных рядов ИИ, а также собственном изучении и продажах Javascript, я создал простую вспомогательную систему на апплете WeChat. Сначала я попробую, и если все получится, я напишу статью, чтобы познакомить вас с ней в будущем.

1 Обзор

FPN — это сокращение от Feature Parymid Network.

В задаче обнаружения цели, как и в YOLO1, свертка используется для извлечения признаков из изображения, и после нескольких объединяющих слоев или слоев свертки с шагом 2 выводится мелкомасштабная карта признаков. Затем сделайте эту карту функцийОбнаружение цели.

Другими словами, конечный результат обнаружения цели полностью зависит от этой карты признаков.Этот метод называетсяАлгоритм одноэтапного обнаружения объектов.

Вполне возможно, что этот метод трудно эффективно идентифицировать цели разных размеров, поэтомуМногоэтапный алгоритм обнаружения, На самом деле используется фича-пирамида FPN.

Проще говоря:Изображение также извлекается с помощью сверточной сети.Первоначально карта объектов выводилась через несколько слоев объединения.Теперь это происходит через несколько слоев объединения.После каждого слоя объединения выводится карта признаков.Таким образом, извлечение генерируются карты объектов разного масштаба.

Затем карты признаков разного масштаба забрасываются в сеть пирамиды признаков FPN для обнаружения целей.

(Если вы все еще не понимаете, продолжайте читать, чтобы понять ~)

2 Обзор структуры FPN

Как видно из рисунка:

  • c1 и c2 слева представляют карты объектов разного масштаба. Размер входного исходного изображения уменьшается наполовину после объединения слоев или сверточных слоев с шагом 2, который становится картой объектов C1; если он проходит через другой слой объединения, он становится картой объектов C2.
  • Четыре карты признаков C3, C4, C5, C6 и C7 с разными масштабами входят в сеть пирамиды признаков FPN для слияния признаков, а затем используют головку обнаружения для прогнозирования кадра-кандидата.
  • Вот некоторые личные размышления (если есть ошибки, исправьте их):Просто различайте здесьМногоэтапный алгоритм обнаруженияОтличие от сети пирамиды признаков.
    • Алгоритм многоэтапного обнаружения: На приведенном выше рисунке мы видим, что пять различных карт характеристик масштаба P3, P4, P5, P6 и P7 входят в кадр кандидата предсказания головы обнаружения.Эта голова обнаружения на самом деле является алгоритмом обнаружения человека, но это Вход нейронной сети - несколько карт признаков разного масштаба, а выход - кадр-кандидат, поэтому этот алгоритм обнаружения с несколькими этапами;
    • Сеть функциональных пирамид: на самом деле это средство интеграции карт объектов разного масштаба для улучшения репрезентативности карт объектов. Этот процесс не является кадром-кандидатом на предсказание и должен учитываться в процессе выделения признаков. Входными данными нейронной сети FPN также являются несколько карт объектов разных масштабов, а выходными данными также являются несколько карт объектов разных масштабов, которые совпадают с входной картой объектов.

Следовательно, многоэтапный алгоритм обнаружения может фактически не иметь структуры FPN и напрямую использовать выходные данные C3, C4, C5, C6 и C7 сверточной сети в головке обнаружения для вывода кадра-кандидата.

3 Простейшая структура FPN

FPN, который однонаправленно сливается сверху вниз, на самом деле по-прежнему является основным режимом слияния в текущих моделях обнаружения объектов. Например, наши обычные Faster RCNN, Mask RCNN, Yolov3, RetinaNet, Cascade RCNN и т. д.,Структура однонаправленной FPN сверху вниз показана на рисунке ниже.:

Суть этой структуры в следующем:Карта признаков C5 подвергается повышающей дискретизации, а затем объединяется с картой признаков C4, а затем объединенная карта признаков проходит через слой свертки и слой BN, и получается вывод карты признаков P4. Форма карт признаков P4 и C4 одинакова.

После такой структуры P4 может изучить более глубокую семантику от C5, а затем P3 может изучить более глубокую семантику от C4.Лично достоверная интерпретация этой структуры, потому что для точности прогноза чем глубже извлечение признаков, тем лучше прогноз, тем точнее прогноз, но масштаб карты глубоких объектов меньше. мелкие признаки могут быть усилены Характеристика графиков.

4 Многоступенчатая структура без FPN

Это структурная схема без структуры FPN. Типичным представителем отсутствия слияния и использования многомасштабных признаков является знаменитый SSD Sunrise 2016 года, который напрямую использует карты признаков разных этапов, чтобы отвечать за обнаружение объектов разных масштабов.

Можно видеть, что карта объектов, выводимая сверточной сетью, непосредственно помещается в кадр-кандидат вывода заголовка объекта.

5 Простое двустороннее слияние

Первоначальный FPN представлял собой одностороннее слияние от глубокого к мелкому, и теперь этоСначала от глубокого к мелкому, затем от мелкого к глубокому в обоих направленияхслияние. PANet — первая модель, предлагающая квадратичное слияние снизу вверх:

  • PAnet: Сеть агрегации путей, Документ CVPR 2018 года.
  • Адрес бумаги:АР Вест V.org/ABS/1803.01…
  • Название статьи: Сеть агрегации путей для сегментации экземпляров

Как видно из рисунка, происходит процесс апсэмплинга, аналогичный FPN, а затем даунсэмплинг завершается с шагом 2 от мелкого к глубокому.Используйте сверточный слой с шагом 2, чтобы уменьшить размер неглубокой карты объектов P3, а затем размер будет таким же, как у C4.После того, как два соединены, они сортируются с помощью сверточных слоев 3x3 для создания карты объектов P4.

Кроме того, существует множество сложных двусторонних операций слияния, которые здесь подробно не рассматриваются.

6 BiFPN

Приведенная выше PAnet — это простейшая двунаправленная FPN, но настоящее имя BiFPN — это другая статья.

  • BiFPN: предложено командой Google в 2019 году.
  • Адрес бумаги:АР Вест V.org/ABS/1911.09…
  • Название статьи: EfficientDet: Масштабируемое и эффективное обнаружение объектов

Структуру понять несложно, на самом деле в структуру PAnet были внесены небольшие улучшения. Но основным вкладом в эту статью является предложение EfficientDet, поэтому BiFPN — лишь небольшой вклад.

7 Пирамидальная сеть рекурсивных функций FPN

  • Recursive-FPN: эффект поразителен, DetectoRS, использующий рекурсивный FPN, считается SOTA для задач обнаружения целей. (бумага 2020 г.)
  • Ссылка на бумагу:АР Вест V.org/ABS/2006.02…
  • Название статьи: DetectoRS: обнаружение объектов с помощью рекурсивной пирамиды признаков и переключаемой свертки Atrous

Отдельные лица также используют структуру RFN в своих собственных задачах по обнаружению целей.Хотя требуемая вычислительная мощность удваивается, эффект действительно значительно улучшается, примерно на 3-5 пунктов улучшения.Посмотрим на структурную схему:Как видите, здесь есть пунктирная и сплошная линии, образующие цикл между картой объектов и сетью FPN. Ниже показана двухэтапная структура RFP, которая представляет собой структуру FPN с двойным циклом. (Если это 1 шаг, это общая структура FPN)Видно, что P3, P4 и P5 в предыдущей структуре FPN встраиваются в соответствующий процесс извлечения признаков сверточной сети. После сплайсинга используется сверточный слой 3x3 и слой BN для восстановления количества каналов до необходимого значения.