ICCV2021 | PnP-DETR: эффективный визуальный анализ с помощью трансформаторов

глубокое обучение компьютерное зрение

предисловие

DETR впервые применил преобразователи для решения задач машинного зрения, которые напрямую преобразуют карты признаков изображения в результаты обнаружения объектов. Несмотря на эффективность, ввод полнофункциональных карт может быть дорогостоящим из-за избыточных вычислений в определенных областях (например, в фоновом режиме).

В этой работе документ заключает в себе идею уменьшения пространственной избыточности в новом модуле выборки опроса и пула (PnP), который является универсальным и легко подключаемым. Мы предлагаем сквозную архитектуру PnP-DETR, которая адаптивно распределяет вычисления в пространстве для повышения вычислительной эффективности.

Эта статья взята из технического руководства по публичному аккаунту CV.Серия обмена бумагой

Обратите внимание на техническое руководство по общедоступной учетной записи CV, уделив особое внимание техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.

图片

Код:Github.com/to Южно-Китайское море / PNP ...

Background

Обнаружение объектов — это фундаментальная задача компьютерного зрения, целью которой является идентификация экземпляров объектов на изображениях и их локализация с использованием точных ограничивающих рамок. Современные детекторы в основном используют прокси-цели обучения для этой задачи ансамблевого прогнозирования, т. Е. Регрессируют смещение от предварительно определенного поля привязки или границы от местоположения сетки. Эти эвристики не только усложняют проектирование модели, но и требуют ручной постобработки для устранения дублирования.

Недавний подход, DETR, устраняет эти ручные конструкции и обеспечивает сквозное обнаружение объектов. Он создает эффективную структуру ансамблевого прогнозирования на сверточных картах признаков и демонстрирует производительность, сравнимую с более быстрыми детекторами R-CNN. Карта признаков сводится к одномерному вектору признаков в пространственном измерении. Затем преобразователь обрабатывает их с помощью своего мощного механизма внимания, чтобы сгенерировать окончательный список обнаружения.

Несмотря на то, что это просто и эффективно, применение сетей преобразования к картам признаков изображения может быть дорогостоящим в вычислительном отношении, в основном из-за операции внимания на длинных сглаженных векторах признаков. Эти признаки могут быть избыточными: **Помимо интересующего объекта, естественные изображения часто содержат огромные фоновые области, которые могут занимать значительную часть представления соответствующего признака, кроме того, некоторых векторов дискриминационных признаков может быть достаточно для обнаружения объектов.Существующая работа по повышению эффективности преобразователей в основном сосредоточена на ускорении операций внимания, при этом мало учитывается пространственная избыточность, о которой говорилось выше..

Инновационные идеи

Чтобы устранить вышеуказанные ограничения, в документе разработан обучаемый модуль выборки опроса и объединения (PnP). ** Его цель — сжать карту признаков изображения в абстрактный набор признаков, состоящий из векторов точных признаков и небольшого количества векторов грубых признаков.

Детерминированная выборка векторов мелких объектов из входной карты объектов для захвата точной информации о переднем плане, которая имеет решающее значение для обнаружения объектов. Грубые векторы признаков объединяют информацию из фоновых местоположений, а результирующая контекстная информация помогает лучше идентифицировать и локализовать объекты. Затем преобразователь моделирует информационное взаимодействие в тонком и толстом пространстве признаков и получает конечный результат.

Поскольку набор абстракций намного короче, чем непосредственно сглаженная карта признаков изображения, вычисления преобразователя значительно сокращаются и в основном распределяются в местах переднего плана. Этот подход ортогонален методам повышения эффективности трансформаторов и может в дальнейшем комбинироваться с ними для получения более эффективных моделей.

Contributions

Подводя итог, можно сказать, что основными вкладами этой статьи являются:

1. Выявлена ​​проблема пространственной избыточности карт признаков изображений в модели DETR., эта проблема приводит к тому, что трансформаторная сеть слишком требовательна к вычислительным ресурсам. Поэтому предлагается абстрагировать карту признаков, чтобы значительно снизить вычислительную сложность модели.

2. Для извлечения признаков разработан новый двухэтапный модуль выборки пула опросов.. Алгоритм сначала использует сэмплер опроса для извлечения вектора мелких признаков переднего плана, а затем использует сэмплер пула для получения вектора грубых признаков контекста.

3. PnP-DETR был построен, который работает с абстрактным тонким и толстым пространством признаков и адаптивно распределяет вычисления в пространственной области. Изменяя длину набора точных функций, алгоритм PnP-DETR становится более эффективным, достигая немедленных компромиссов между вычислениями и производительностью в рамках одной модели.

4. Модуль выборки PnP является общим и изучается сквозным образом без явного контроля, как сеть региональных предложений. В документе дополнительно подтверждается паноптическая сегментация и недавняя модель ViT, и показано постоянное повышение эффективности. Этот подход дает полезную информацию для будущих исследований эффективных решений задач машинного зрения с использованием трансформаторов.

Methods

图片

Структура PnP-DETR

feature abstration

В этой статье предлагается схема абстракции признаков для устранения ограничения, заключающегося в том, что представления в виде сетки равномерно распределены по пространству. В частности, карты признаков, выдаваемые CNN, заменяются двумя наборами векторов признаков, представленных компактными признаками в качестве входных данных части преобразователя.Подробности показаны на следующем рисунке.

图片

Набор мелких признаков Ff дискретно выбирается из карт признаков и содержит точную информацию, необходимую для идентификации и обнаружения объектов. Грубый набор признаков Fc получается путем агрегирования информации из множества пространственных местоположений и кодирования фоновой контекстной информации. Вместе они образуют абстрактное множество F∗: F* = Ff U Fc. F* кодирует всю высокоуровневую информацию, необходимую для обнаружения объектов на изображении, и передает ее преобразователю для получения результатов обнаружения объектов.

图片

Poll and Pool (PnP) Sampling

Приведенная выше схема абстракции должна решить две проблемы:

1) Уточнение требует детерминированной бинарной выборки, которая не является дифференцируемой. Семплеры, разработанные вручную, можно изучить с некоторой промежуточной целью, например, с сетью региональных предложений или сетью точечных предложений, однако это несовместимо со сквозным обучением, и правила выборки, созданные вручную, могут быть не оптимальными.

2) Трудно извлечь компактные, грубые наборы функций, которые сосредоточены только на фоновой контекстной информации. В документе схема абстракции разделена на два этапа и разработан сэмплер опроса и сэмплер объединения для ее реализации. Сэмплер является детерминированным и обучается от начала до конца с незначительными вычислительными затратами.

Poll Sampler

Поскольку невозможно явно изучить бинарные сэмплеры, в статье предлагается стратегия ранжирования выборки. Мы используем небольшую сеть метаоценок для прогнозирования информативных оценок для каждого местоположения пространственного объекта (i, j):

图片

Чем больше оценка, тем информативнее вектор f_ij. Затем отсортируйте их, чтобы получить вектор оценок Sl, длина которого l равна HxW карт объектов. Возьмем отсортированный TopN, N = alpha * l. Эта альфа используется для управления масштабом.

Чтобы иметь возможность изучать ScoringNet с использованием обратного распространения ошибки, прогнозируемая оценка информативности Sl используется в качестве коэффициента модуляции для выборочного точного набора функций:

图片

Автор обнаружил, что нормализация вектора признаков перед модуляцией может стабилизировать обучение ScoringNet, поэтому фактически LayerNorm сначала составляется для fl, а затем умножается на Sl.

Pool Sampler

Приведенный выше сэмплер опроса извлекает прекрасный набор функций. Остальные векторы признаков в основном соответствуют фоновым областям. Чтобы сжать их в небольшой набор функций, обобщающих контекстную информацию, в документе разработан объединяющий сэмплер, которыйостальные собственные векторыВзвешенное объединение выполняется для получения фиксированного числа векторов признаков фонового контекста. Это частично вдохновлено билинейным объединением и операциями двойного внимания, где глобальные дескрипторы генерируются для сбора статистики второго порядка карт объектов.

Слишком много формул, чтобы объяснить основную операцию выборки пула в одном предложении:

  • Используйте обучаемый взвешенный вектор W^a, умноженный на оставшийся вектор Fr после выборки опроса, чтобы получить агрегированный вектор весов a_r, а затем используйте Softmax для нормализации агрегированного вектора a_r;

  • Параллельно с этим обучаемый взвешенный вектор W ^ v используется для умножения остаточного вектора Fr после выборки опроса для получения сопоставленного вектора.ф'р;

  • Умножьте нормализованный вектор агрегации a_r на F'r, чтобы получить выходные данные Pool Sampler.

Ссылка [34] показывает, что контекстуальная информация является ключом к идентификации объектов, а функции пирамид разных масштабов могут лучше агрегировать контекстную информацию. Динамически генерируя агрегированные веса, сэмплер объединения может свободно получать контекстную информацию в различных масштабах. То есть некоторые векторы признаков могут фиксировать локальный контекст, в то время как другие могут кодировать глобальный контекст.

В документе эмпирически демонстрируется возможность объединения семплеров путем визуализации агрегированных весов. Вместе с точным множеством Ff в опрашивающем семплере получается искомое абстрактное множество F∗. Обратите внимание, что модуль PnP также можно применять после слоя преобразования, а не только сверточных карт объектов.

Обратная проекция для плотных задач прогнозирования

Модуль PnP сокращает карты характеристик изображения из двумерного координатного пространства в абстрактное пространство, которое нельзя использовать для задач плотного прогнозирования, таких как сегментация изображения. Чтобы устранить это ограничение, в документе предлагается проецировать вектор признаков, выдаваемый кодировщиком, обратно в двумерное координатное пространство.

В частности, векторы мелких признаков распространяются обратно в места выборки; векторы грубых признаков сначала распространяются обратно в исходное 2D-пространство прохода через агрегированные веса, а затем распространяются обратно в места без выборки в сэмплере опроса. Затем полученные карты 2D-признаков используются для плотного прогнозирования.

Conclusion

В документе проводятся обширные эксперименты с эталонным тестом COCO, и результаты показывают, что PnP-DETR эффективно снижает стоимость и обеспечивает компромисс между динамическими вычислениями и производительностью.

图片

Без наворотов один PnP-DETR-DC5 достигает 42,7 AP с сокращением вычислений трансформатора на 72 % и сокращением вычислений трансформатора на 56 % по сравнению с базовым уровнем 43,3 AP и конкурирующим 43,1 AP. Повышение эффективности подтверждается паноптической сегментацией и новейшей моделью преобразования зрения (ViT). Например, PnP-ViT обеспечивает сокращение FLOP почти наполовину при снижении точности всего на 0,3.

图片

Используйте PnP-DETR-R50 для визуализации местоположений выборки опроса и примеров карт совокупного веса из объединенных пробоотборников. 1-й столбец: входное изображение; 2-й/3-й столбец: карта результатов опросного сэмплера и соответствующая ему карта сэмпла; последние два столбца: пример агрегированной карты весов из объединяющего сэмплера, где первый агрегирует глобальный контекст, а второй или агрегирует локальный контекст.

** Добро пожаловать, чтобы обратить внимание на общедоступный номерТехническое руководство по резюме, уделяя особое внимание техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей. **​

Другие статьи

ICCV2021 | Можно ли использовать преобразователи в области неестественных изображений небольших наборов данных, таких как медицинские изображения?

ICCV2021 | Отражение и улучшение кодирования относительного положения в Vision Transformer

ICCV2021 | TransFER: обучение представлениям выражений лица с учетом отношений с использованием трансформеров

2021 - Обзор многообъектного отслеживания в видеонаблюдении

В этой статье кратко описаны часто используемые алгоритмы и библиотеки разработки для машинного зрения.

Понимание алгоритмов обнаружения объектов с единой точки зрения: анализ и сводка последних достижений

10 обязательных к прочтению работ по восстановлению изображения | Краткое описание извлечения признаков изображения HOG и SIFT

Краткое изложение распространенных способов добавления предварительных знаний в модели | Говоря о рецензировании рукописей в области резюме

Всестороннее понимание якорей в обнаружении целей | Резюме сегментации экземпляра Резюме Полное издание

Краткое описание извлечения признаков изображения HOG и SIFT | Введение в основы высокопроизводительных вычислений OpenCV

Резюме функции потерь регрессии при обнаружении цели | Резюме документа по обнаружению целей без якоря

Некоторые проблемы, идеи и решения обнаружения малоразмерных целей | Краткое изложение распространенных методов обнаружения малых целей

Обзор последних исследований по обнаружению малоразмерных целей в 2021 году

Обсуждение размера модели глубокого обучения и скорости вывода модели

Разница между обнаружением видеообъекта и обнаружением объекта изображения

Опыт работы и восприятие алгоритма CV от года

Обзор одноэтапной сегментации экземпляров | Обзор семантической сегментации | Обзор многоуровневой классификации

Обзор понимания видео: распознавание действий, расположение последовательности действий, встраивание видео

Совместное использование ресурсов | SAHI: библиотека гипервыводов с помощью срезов для обнаружения небольших целей на очень больших изображениях

Siamese networkСводка | Вводный путь к компьютерному зрению

Краткое изложение общих идей бумажных инноваций | Краткое изложение методов сжатия сверточной нейронной сети

Резюме методов настройки параметров для гиперпараметров нейронной сети | Краткое изложение методов увеличения данных

[Сводка методов нормализации | ака "БН и его потомки"](Tickets.WeChat.QQ.com/Yes?__Author=M Посмотрим…«Сводка методов нормализации | также известная как «Б.Н. и его преемники»")

Влияние размера партии на обучение нейронной сети