Аннотация: В этой статье представлены два алгоритма сквозного обучения общего обнаружения объектов — DETR и DeFCN.
Как основная задача компьютерного зрения, обнаружение общего объекта имеет большое значение для понимания изображения и извлечения информации. Для этой задачи было разработано множество методов, таких как полностью основанные на свертке одноэтапные методы DenseBox, YOLO, SSD, RetinaNet и CenterNet и др., а также более сложные многоэтапные методы RCNN, Fast RCNN, Faster RCNN и Cascade. RCNN. В соответствии с определением задачи обнаружения цели эти методы должны обнаруживать и классифицировать целевые объекты, появляющиеся на изображении, чтобы обеспечить скорость отзыва цели в сочетании с характеристиками предсказания скользящего окна, принятыми сверточной нейронной сетью. сеть, все вышеперечисленные методы используют сверточная нейронная сеть, Выполняется плотное извлечение области-кандидата и прогнозирование цели, поэтому для каждой входной цели часто существует несколько значений прогнозирования сети, соответствующих ему.
Эти методы обычно используют метод немаксимального подавления (NMS) для фильтрации повторяющихся результатов прогнозирования для получения окончательных результатов прогнозирования. В отличие от операции свертки, процесс NMS неуправляем, модель не может оптимизировать процесс дедупликации, а окончательная модель обнаружения не может быть полностью сквозной из-за существования этой операции.
В некоторых недавних достижениях в общем обнаружении объектов некоторые методы достигли сквозного обучения, и как обучение, так и логический вывод не требуют операций NMS. Например, DETR на основе трансформатора[1] и полностью сверточный DeFCN[2], эти два метода используют разные пути реализации и имеют разные преимущества и потенциал соответственно.Введены следующие два метода.
DETR
Transformer добился больших успехов в задачах обработки естественного языка.DETR впервые применил Transformer для задач обнаружения целей, реализуя сквозное обнаружение целей, и достиг производительности, сравнимой с высокооптимизированной Faster RCNN в задачах обнаружения целей COCO. DETR выводит взаимосвязь между целью и глобальной информацией и не требует от NMS прямого вывода и параллельного прогнозирования набора целей.
Как показано на рисунке 1, DETR сочетает в себе структуру CNN и Transformer для прямого параллельного прогнозирования целевого набора. Можно видеть, что этот метод рассматривает проблему обнаружения как проблему ансамблевого предсказания. По сравнению с предыдущим методом, основанным на ансамблевом прогнозировании, DETR отличается тем, что в нем используется функция двудольного сопоставления потерь и параллельная структура декодирования преобразователя. Благодаря этим характеристикам результаты прогнозирования DETR имеют инвариантность к расположению, могут обеспечить параллельное прогнозирование и повысить эффективность модели.
Рисунок 1. Процесс обнаружения DETR
После того, как CNN извлечет двумерные признаки изображения, поскольку Преобразователь может обрабатывать только одномерные последовательности, необходимо сгладить двумерные признаки, чтобы получить одномерные признаки. Прямой ввод в Преобразователь приведет к тому, что объект потеряет свою информацию о пространственном кодировании, поэтому этот метод добавляет к объекту позиционное вложение, чтобы сохранить пространственную информацию объекта. Обратите внимание, что ввод сплющенных функций в Transformer потребует большого объема вычислений.Этот метод не использует структуру FPN и использует только функции высокого уровня и низкого разрешения.
Как показано в таблице 1, этот метод дает результаты, сравнимые с Faster RCNN, который дает лучшие результаты для крупных целей благодаря использованию глобальной информации в процессе прогнозирования. В то же время, поскольку структура FPN не используется, результаты этого метода относительно невелики на малых целях.
Таблица 1. Экспериментальные результаты DETR на COCO
Этот метод не требует работы NMS, но добавление NMS окажет определенное влияние на результаты. Как показано на рисунке 2, значение AP несколько увеличивается после добавления NMS, и в то же время с ростом сложности модели улучшение постепенно становится меньше, что свидетельствует о том, что при определенных условиях метод в принципе не имеет повторных прогнозов и не требует работы NMS.
Рисунок 2. Влияние NMS на результаты
DETR прорывается через предыдущую парадигму обнаружения и использует предсказание по ансамблю.Однако скорость оптимизации метода низкая, и из-за ограничения объема вычислений трудно использовать функции с высокой оценкой, и он не эффективен для небольшой цели. обнаружение. Некоторые последующие методы, такие как DeformDet, внесли некоторые улучшения в эти проблемы и улучшили эффект.
DeFCN
В отличие от DETR, в котором используется Transformer, DeFCN реализует сквозное обнаружение на основе полной свертки. DeFCN реализован на основе FOCS, который также использует плотное предсказание, но не требует работы NMS. В предыдущем методе этапы обучения и прогнозирования используют стратегию «один ко многим», то есть каждая цель соответствует нескольким значениям прогноза, выводимым сетью, что приводит к использованию NMS для дедупликации на этапе тестирования. Этот метод исследует эту стратегию соответствия, предлагает использовать выборочное сопоставление один к одному, и благодаря дополнительному дизайну окончательная модель обеспечивает прогнозы один к одному при сохранении сопоставимой производительности. Поскольку в NMS нет необходимости, DeFCN может преодолеть теоретический верхний предел NMS на плотных наборах данных, что полностью отражает преимущества этого метода.
Рисунок 3. Структурная схема DeFCN
Самый простой способ использовать стратегию назначения «один к одному» — это напрямую использовать центр цели или поле привязки в качестве единственного положительного образца для каждой цели.Однако этот метод будет иметь большую потерю производительности по сравнению с предыдущим методом «один к одному». многие конструкции, такие как FOCS. Этот метод устраняет ухудшение производительности, вызванное однозначным назначением, по двум аспектам: функция потерь и функция. Общая структура показана на рисунке 3.
Что касается функции потерь, необходимо рассмотреть вопрос о том, как определяются положительные образцы. Из-за изменения формы цели выбор центра ограничивающей рамки цели не очень хороший выбор, тем более, что для каждой цели определен только один положительный образец, стратегия распределения легче влияет на оптимизацию сети. . Вдохновленный функцией множественных потерь, этот метод рассматривает сопоставление выборок как задачу сопоставления двудольных графов, оптимизирует установленные потери и распределяет положительные и отрицательные выборки в соответствии с выводом сети. Стратегия конкретного распределения в основном учитывает три аспекта: расположение перед распределением положительной выборки, оценку ветви классификации, ограничивающую рамку регрессии и долговую расписку GT. Окончательный положительный образец выбирает тот, у которого наивысшая оценка продукта из трех. Как показано в уравнении 2:
После использования стратегии распределения выборки «один к одному» производительность модели все еще трудно достичь по сравнению с предыдущим методом «один ко многим», поэтому этот метод добавляет дополнительные вспомогательные потери на этапе обучения, что не влияет на вывод. . При распределении этой потери в выборке используется традиционный метод «один ко многим», как показано в таблице 2, и результаты значительно улучшаются после добавления этой потери.
С точки зрения дизайна сети этот метод основан на полностью сверточной сети, а операция свертки является линейной операцией. Стратегия «один к одному» требует, чтобы выход сети был относительно четким, что сложно для свертки. Следовательно, в этом методе используется функция Максимальный объединяющий фильтр, и информация о нескольких масштабах FPN объединяется. Как показано в таблице 2, после добавления этого модуля (3DMF) наблюдается значительное улучшение.
Таблица 2. Влияние различных модулей на конечный результат (COCO)
Рисунок 4. Визуализация ответа DeDCN
Как показано на рис. 4, на карте вероятности цели, выдаваемой сетью, FCOS имеет несколько ответов для каждой цели и нуждается в дедупликации NMS (например, 4(a)), в то время как DeFCN лучше с добавлением каждый модуль Достигается, что каждая цель соответствует ответу (как показано в 4(d)).
Таблица 3. Анализ производительности CrowdHuman
Этот метод имеет сильное преимущество в плотных данных и может превышать теоретический верхний предел NMS и не подвержен ложной фильтрации для плотных целей.
В общем, два вышеуказанных метода сквозного обнаружения используют разные маршруты, но оба они могут исключить NMS и обеспечить полное сквозное соединение между сетевым входом и результатами прогнозирования, и оба демонстрируют лучшую производительность. DETR представляет Transformer, который может помочь в моделировании целевых отношений и понимании глобальной информации. Благодаря простому дизайну DeFCN легко развертывается и имеет хорошую прикладную ценность в плотных сценариях.
использованная литература
1. Carion N, Massa F, Synnaeve G, et al. End-to-End Object Detection with Transformers[J]. arXiv preprint arXiv:2005.12872, 2020.
2. Wang J, Song L, Li Z, et al. End-to-end object detection with fully convolutional network[J]. arXiv preprint arXiv:2012.03544, 2020.
Эта статья опубликована в сообществе HUAWEI CLOUD «Технический обзор 8: Введение в сквозные универсальные методы обнаружения целей», первоначальный автор: Я хочу быть тихим.
Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~