ICCV2021 | TOOD: одноэтапное обнаружение объектов, ориентированное на задачу

искусственный интеллект глубокое обучение компьютерное зрение

предисловие

Одноэтапное обнаружение объектов обычно достигается за счет оптимизации двух подзадач классификации и локализации объектов с использованием головки с двумя параллельными ветвями, что может привести к некоторой степени пространственного рассогласования прогнозов между двумя задачами. В этой статье предлагается одноэтапное обнаружение объектов, ориентированное на задачу (TOOD), которое явно согласовывает две задачи на основе обучения.

TOOD достигает 51,1 балла в одномасштабном тесте для одной модели на MS-CoCO. Это значительно превышает современные одноступенчатые детекторы, такие как ATSS (47.7AP), GFL (48.2AP) и PAA (49.0AP), которые имеют меньше параметров и FLOP.

Эта статья взята из технического руководства по публичному аккаунту CV.Серия обмена бумагой

Обратите внимание на техническое руководство по общедоступной учетной записи CV, уделив особое внимание техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.

图片

Бумага: TOOD: одноэтапное обнаружение объектов, ориентированное на задачу

Код:github.com/fcjian/TOOD

Background

Обнаружение объектов часто формулируется как многозадачная задача обучения путем совместной оптимизации классификации и локализации объектов.Из-за разных механизмов обучения для классификации и локализации пространственное распределение изученных признаков для двух задач может быть разным, что приведет к определенной степени рассогласования при использовании двух отдельных ветвей для прогнозирования..

Недавние одноэтапные детекторы объектов пытаются предсказать согласованный результат двух независимых задач, фокусируясь на центре объекта.. Они предположили, что якоря, расположенные в центре объекта (то есть опорные точки для детекторов без якорей или якорные блоки для детекторов на основе якорей), могут давать более точные прогнозы как для классификации, так и для локализации.

Например, как недавние FCOS, так и ATSS используют ветвь центральности для улучшения оценок классификации, предсказанных по якорям вблизи центра объекта, и присваивают большие веса потерям локализации соответствующих якорей. Более того, FoveaBox рассматривает якоря в предопределенной центральной области объекта как положительные образцы. Такой эвристический дизайн дал хорошие результаты,Но эти методы могут страдать от двух ограничений:

(1) Классификация и позиционирование независимы. Современные одноступенчатые детекторы выполняют классификацию и локализацию объектов независимо и параллельно через две независимые ветви (т. е. головки). Этот дизайн, состоящий из двух ветвей, может привести к отсутствию взаимодействия между двумя задачами, что приведет к противоречивым прогнозам при их выполнении. Как показано в столбце «результат» на рисунке 1, детектор TSS (верхний левый угол) идентифицирует объект «стол» (представленный якорями, показанными красными блоками), но более точно определяет местонахождение другого объекта «пицца» ( красная рамка) рамка).

图片

Рисунок 1: Графическое представление пространственного распределения результатов обнаружения («Результат») и оценок классификации («Оценка») и оценок локализации («IoU»), предсказанных ATSS (верхний ряд) и TOOD (нижний ряд).

(2) Независимое от задачи задание образца. Большинство детекторов без привязки используют схему назначения на основе геометрии для выбора привязок вблизи центров объектов для классификации и локализации, в то время как детекторы на основе привязок обычно назначают поля привязки путем вычисления IoU между блоками привязки и наземной истиной. Однако оптимальные привязки для классификации и локализации часто непоследовательны и могут сильно различаться в зависимости от формы и характеристик объектов. Широко используемая схема распределения выборки не зависит от задачи, поэтому может быть сложно сделать точные и последовательные прогнозы для обеих задач, как показано в распределениях «Оценка» и «Долг» ATSS на рисунке 1. Столбец «Результат» также показывает, что пространственное расположение лучшего якоря локализации (зеленый блок) может быть не в центре объекта, и оно не соответствует лучшему якорю классификации (красный блок). Следовательно, в процессе немаксимального подавления (NMS) точная ограничивающая рамка может подавляться менее точной ограничивающей рамкой.

Инновационные идеи

Чтобы устранить эти ограничения, в документе предлагается одноэтапное обнаружение объектов (TOOD), ориентированное на задачу, которое направлено на повышение точности задачи путем разработки новой структуры головы и метода обучения, ориентированного на выравнивание.Точно выровняйте две задачи:

Стремясь к характеристикам, что классификация и локализация в традиционном одноэтапном обнаружении целей реализуются параллельно с двумя ветвями,Головка, ориентированная на задачу (T-Head), предназначена для повышения интерактивности между двумя задачами.. Это позволяет двум задачам работать более согласованно и, в свою очередь, уточнять их прогнозы.T-Head концептуально прост: он вычисляет функции взаимодействия задач и делает прогнозы с помощью нового предиктора, ориентированного на задачу (TAP). Затем он выравнивает пространственное распределение двух прогнозов в соответствии с обучающим сигналом, обеспечиваемым ориентированным на задачу обучением., как описано ниже.

Чтобы еще больше преодолеть проблему рассогласования, в документе предлагается обучение выравниванию задач (TAL), чтобы уточнить расстояние между оптимальными якорями двух задач..Это выполняется путем разработки схемы распределения выборки и потерь, зависящих от задачи. Назначение выборки собирает обучающие выборки (положительные или отрицательные) путем вычисления согласования задачи для каждого якоря, в то время как потеря согласования задачи постепенно объединяет лучшие якоря для прогнозирования классификации и локализации во время обучения.. Следовательно, во время вывода могут быть сохранены ограничивающие рамки с наивысшими классификационными показателями вместе с наиболее точными локализациями.

Предлагаемая T-Head и стратегия обучения могут работать вместе, чтобы делать высококачественные прогнозы как в классификации, так и в локализации. Основные вклады статьи можно резюмировать следующим образом:

(1) разработана новая T-образная головка, которая улучшает взаимодействие между классификацией и локализацией, сохраняя при этом функции классификации и локализации, а также дополнительно согласовывает две задачи прогнозирования;

(2) В документе предлагается TAL, который явно согласовывает две задачи с идентифицированными якорями выравнивания задач и предоставляет сигнал обучения для предлагаемого предиктора;

(3) В статье проводятся обширные эксперименты с MSCOCO, и TOOD достигает 51,1AP, превосходя существующие однокаскадные детекторы, такие как ATSS. Качественные результаты дополнительно подтверждают эффективность метода согласования задач.

Methods

Подобно недавним одноступенчатым детекторам, TOOD имеет общий конвейер «магистраль-FPN-головка». Кроме того, учитывая эффективность и простоту, TOOD использует якорь в каждом месте (так же, как ATSS), где «якорь» относится к точке привязки для детекторов без якоря или якорной коробке для детекторов на основе якоря.

图片

Рисунок 2. Общий механизм обучения TOOD.

Во-первых, T-Head делает прогнозы по функциям FPN. Во-вторых, прогнозы используются для вычисления метрики согласования задач на каждом якоре, на основе которой TAL выдает изученный сигнал для T-Head. Наконец, T-Head соответствующим образом корректирует распределение классификации и локализации. В частности, наиболее выровненные привязки получают более высокие оценки классификации с помощью «Вероятности» (карта вероятности) и более точные прогнозы ограничительной рамки с помощью изученного «Смещения».

Как показано на рис. 2, T-Head и TAL совместно могут повысить согласованность двух задач. В частности, T-Head сначала выполняет классификацию и прогнозирование локализации функций FPN. Затем TAL вычисляет сигнал согласования задачи на основе новой метрики согласования задачи, которая измеряет степень согласования между двумя прогнозами. Наконец, T-Head автоматически корректирует свои вероятности классификации и прогнозы локализации, используя изученный сигнал, вычисленный TAL во время обратного распространения.

Task-aligned Head

Разработать эффективную структуру головки для улучшения традиционной конструкции головок в однокаскадных детекторах.(как показано на рисунке 3(А)). ** В документе это достигается за счет рассмотрения двух аспектов: (1) увеличения взаимодействия между двумя задачами и (2) улучшения способности детектора изучать выравнивания. ** T-Head показан на рис. 3 (B), который имеет простой экстрактор признаков и два предиктора, ориентированных на задачу (TAP).

图片

Рис. 3. Сравнение обычной параллельной головки и предлагаемой Т-образной головки.

Чтобы улучшить взаимодействие между классификацией и локализацией, в документе используется экстрактор признаков для изучения стеков признаков взаимодействия задач из нескольких сверточных слоев, как показано синим цветом на рисунке 3 (B). Такая конструкция не только облегчает взаимодействие задач, но и обеспечивает многоуровневые функции и многомасштабные эффективные рецептивные поля для этих двух задач. Формально Xfpn представляет функцию FPN. Средство извлечения признаков использует N последовательных сверточных слоев с функциями активации для вычисления признаков взаимодействия задач:

图片

Среди них conv k и δ относятся к k-му сверточному слою и функции ReLU соответственно. Поэтому в статье используется одна ветвь головы для извлечения богатых многомасштабных признаков из признаков FPN. Затем рассчитанные функции взаимодействия задач отправляются в два TAP для классификации и локализации.

Task-aligned Predictor(TAP)

В статье выполняется целевая классификация и локализация вычисленных признаков взаимодействия задач, и две задачи могут хорошо воспринимать состояние друг друга. Однако из-за дизайна одной ветви функция взаимодействия задач неизбежно вносит определенную степень функционального конфликта между двумя разными задачами, что также обсуждается в других статьях.

图片

Рис. 4 Предиктор, ориентированный на задачу (TAP)

Интуитивно понятно, что задачи классификации и локализации объектов имеют разные цели и, таким образом, сосредоточены на разных типах признаков (например, на разных слоях или рецептивных полях). следовательно,В документе предлагается механизм внимания к слоям, который поощряет декомпозицию задачи путем динамического вычисления характеристик задачи на уровнях.. Как показано на рисунке 4, специфические для задачи признаки вычисляются отдельно для каждой задачи классификации или локализации:

图片

где wk — k-й элемент внимания обучаемого слоя w, который рассчитывается на основе особенностей межуровневого взаимодействия задач и может фиксировать зависимости между слоями:

图片

где X inter получается объединением средних. Наконец, предскажите результат классификации или локализации для каждой Xtask:

图片

где задача X — это конкатенированная функция задачи X_k, а conv1 — это сверточный слой 1 × 1 для уменьшения размерности. Затем задача Z преобразуется в плотную классификационную оценку P (В × Ш × 80) или ограничивающую рамку объекта B (В × Ш × 4) с преобразованием расстояния до b-поля с использованием сигмовидной функции.

Prediction Alignment

На этапе прогнозирования две задачи дополнительно явно согласовываются путем корректировки пространственного распределения двух прогнозов: P и B. В отличие от предыдущей ветви центральности или ветви IOU, которая может корректировать прогнозы классификации только на основе категориальных признаков или локальных признаков, в документе два прогноза согласовываются путем совместного рассмотрения двух задач с использованием вычисленных функций взаимодействия задач. Стоит отметить, что метод выравнивания выполняется отдельно для этих двух задач.

图片

Как показано на рисунке 4, в статье используется карта пространственной вероятности M∈(H×W×1) для корректировки предсказания классификации:

图片

где M вычисляется на основе характеристик взаимодействия, что позволяет узнать степень согласия между двумя задачами в каждом пространственном местоположении. В то же время карта пространственного смещения O∈(H×W×8) дополнительно изучается с помощью функции взаимодействия, которая используется для корректировки прогнозируемой ограничивающей рамки каждой позиции, тем самым выравнивая прогноз локализации. В частности, изученное пространственное смещение позволяет наиболее выровненной привязке идентифицировать наилучшее предсказание границ вокруг нее:

图片

Стоит отметить, что смещение для каждого канала изучается независимо, а это значит, что каждая граница объекта имеет свое изученное смещение. Это позволяет делать более точные прогнозы для четырех границ, поскольку каждая из них может быть изучена отдельно от наиболее точных якорей в ее окрестностях. Таким образом, не только координируются эти две задачи, но и повышается точность локализации за счет определения точной точки привязки для каждой стороны.

Карты выравнивания M и O автоматически извлекаются из интерактивного стека функций:

图片

T-Head — это автономный модуль, который отлично работает без TAL. Его можно легко применить по принципу plug-and-play к различным детекторам первичных объектов для повышения эффективности обнаружения..

Task Alignment Learning

TAL отличается от предыдущих методов двумя способами. Во-первых, с точки зрения согласования задач он динамически выбирает высококачественные якоря на основе разработанных показателей. Во-вторых, он учитывает как назначения якорей, так и веса. Он включает в себя стратегию выборочного распределения и новые потери, специально разработанные для согласования двух задач..

Чтобы справиться с NMS, назначения привязок для обучающих экземпляров должны удовлетворять следующим правилам: (1) выровненные привязки должны иметь возможность предсказывать высокие оценки классификации с точной совместной локализацией; (2) несогласованные привязки должны иметь низкие оценки классификации и впоследствии подавляться. Основываясь на этих двух целях, в документе разработана новая метрика согласования привязки, чтобы явно измерить степень согласования задачи на уровне привязки. Метрики выравнивания интегрированы в функции назначения и потери выборки, чтобы динамически улучшать прогнозы для каждого якоря.

图片

где s и u представляют классификационный балл и значение IOU соответственно. α и β используются для контроля влияния этих двух задач на метрику выравнивания привязки.

Для каждого экземпляра якорь с наибольшим значением выбирается как положительный образец, а остальные якоря используются как отрицательные образцы. Опять же, обучение выполняется путем вычисления новых функций потерь, специально разработанных для настройки задач классификации и локализации.

Task-aligned Loss

Чтобы явно улучшить оценку классификации выровненных привязок при одновременном снижении оценки классификации невыровненных привязок (т. е. малых значений t), мы используем двоичные метки, которые заменяют положительные привязки во время обучения. Вместо бинарных меток положительных якорей используйте нормализацию t, ˆt, где ˆt нормализовано следующими двумя свойствами: (1) Обеспечьте эффективное обучение жестких экземпляров (для всех соответствующих положительных якорей эти жесткие экземпляры обычно имеют меньшее значение) ; (2) поддерживать порядок между экземплярами на основе точности прогнозируемой ограничивающей рамки.

Поэтому в статье используется простая нормализация на уровне экземпляра для масштабирования ˆt: максимальное значение ˆt равно максимальному значению IOU (u) в каждом экземпляре. Функция потерь для задачи классификации определяется следующим образом:

图片

Фокальная потеря используется для классификации, чтобы смягчить дисбаланс между отрицательными и положительными образцами во время обучения. где i представляет i-ю привязку, соответствующую экземпляру с отрицательными привязками, j представляет j-ю привязку из отрицательно-отрицательной привязки, а γ — параметр фокуса.

Как и в случае с целью классификации, регрессионная потеря ограничивающей рамки, вычисленная для каждого якоря, повторно взвешивается в соответствии с ˆt, а потеря GIoU (L_GIoU) ​​может быть повторно выражена следующим образом:

图片

где b и ~b обозначают предсказанную ограничивающую рамку и соответствующую истину. Общие потери при обучении для TAL представляют собой сумму L_cli и L_reg.

Conclusion

1. В статье проводятся обширные эксперименты с MS-Coco, и TOOD проводит одномасштабный тест 51.1AP для одной модели на MS-Coco. Это значительно превышает современные одноступенчатые детекторы, такие как ATSS (47.7AP), GFL (48.2AP) и PAA (49.0AP), которые имеют меньше параметров и FLOP.

图片

图片

2. Сравнение различных схем размещения обучающей выборки. 'Pos/neg': назначение положительного/отрицательного якоря. «Вес»: назначение веса анкера. 'fixed': фиксированное распределение. 'ada': Адаптивное назначение. Здесь TAP согласовывает прогнозы на основе особенностей классификации и локализации последней головной башни.

图片

3. Сравнение различных конструкций головок в разных детекторах.

图片

4. Визуализация

图片

Добро пожаловать в публичный аккаунтТехническое руководство по резюме, уделяя особое внимание техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.

Другие статьи

CVPR2020 | D3S: различительное средство отслеживания сегментации одиночного выстрела

Краткое изложение общих приемов в потоке данных Pytorch

Резюме инновационных идей модели трансформатора в компьютерном зрении

PNNX: формат обмена нейронной сетью PyTorch

ICCV2021 Преобразователь технического зрения с прогрессивной выборкой

MobileVIT: легкий визуальный трансформер + мобильное развертывание

ICCV2021 | SOTR: Сегментация объектов с помощью преобразователей

ML2021 | PatrickStar: параллельное обучение предварительно обученных моделей с управлением памятью на основе блоков

ICCV2021 | PnP-DETR: эффективный визуальный анализ с трансформаторами

ICCV2021 | Отражение и улучшение кодирования относительного положения в Vision Transformer

2021 - Обзор многообъектного отслеживания в видеонаблюдении

В этой статье кратко описаны часто используемые алгоритмы и библиотеки разработки для машинного зрения.

Понимание алгоритмов обнаружения объектов с единой точки зрения: анализ и сводка последних достижений

Краткое изложение распространенных способов добавления предварительных знаний в модели | Говоря о рецензировании рукописей в области резюме

Всестороннее понимание якорей в обнаружении целей | Резюме сегментации экземпляра Резюме Полное издание

Краткое описание извлечения признаков изображения HOG и SIFT | Введение в основы высокопроизводительных вычислений OpenCV

Резюме функции потерь регрессии при обнаружении цели | Резюме документа по обнаружению целей без якоря

Некоторые проблемы, идеи и решения обнаружения малоразмерных целей | Краткое изложение распространенных методов обнаружения малых целей

Обзор последних исследований по обнаружению малоразмерных целей в 2021 году

Обсуждение размера модели глубокого обучения и скорости вывода модели

Разница между обнаружением видеообъекта и обнаружением объекта изображения

Опыт работы и восприятие алгоритма CV от года

Обзор одноэтапной сегментации экземпляров | Обзор семантической сегментации | Обзор многоуровневой классификации

Обзор понимания видео: распознавание действий, расположение последовательности действий, встраивание видео

Совместное использование ресурсов | SAHI: библиотека гипервыводов с помощью срезов для обнаружения небольших целей на очень больших изображениях

Краткое изложение общих идей бумажных инноваций | Краткое изложение методов сжатия сверточной нейронной сети

Резюме методов настройки параметров для гиперпараметров нейронной сети | Краткое изложение методов увеличения данных

[Сводка методов нормализации | ака "БН и его потомки"](Tickets.WeChat.QQ.com/Yes?__Author=M Посмотрим…«Сводка методов нормализации | также известная как «Б.Н. и его преемники»")

Влияние размера партии на обучение нейронной сети | Вводный путь к компьютерному зрению