Повторная идентификация человека с плотным семантическим выравниванием (DSA-reID), работа в CVPR 2019 года [1]. DSA-reID включает в себя основной поток полного изображения (MF-Stream) в сети и плотно семантически выровненный направляющий поток (DSAG-Stream) в сети. Процесс DSAG используется в качестве регулятора для сквозной настройки изучения признаков, извлеченных из исходного изображения процессом MF.Эта настройка основана на трехмерном UV-пространстве, так что точки на изображении соответствуют поверхности объект 3D-модели и 24 семантически выровненных плотных семантически выровненных изображения для решения проблемы несовпадения элементов в ReID. Работа над статьей достигает SOTA по нескольким критериям.
Список бумаг:
Болевые точки
В ReID есть много проблем, таких как изменение угла камеры, изменение позы человека, обнаружение дефектов кадра, смещение локальных элементов и окклюзия, как показано на рисунке 1 ниже:
Среди них несовпадение функций является одной из основных причин, препятствующих развитию ReID. В последние годы метод сквозного распознавания, который просто использует CNN для извлечения глобального представления признаков изображений, ограничен следующими двумя аспектами:
1) Недостаток внимания к локальным различиям
2) Использовать явный механизм для устранения несоответствия (относительно представления функций CNN, семантическая информация является явной).
Модель на основе частей, обычно используемая в текущей работе, не может хорошо выровнять человеческое тело. Метод использования ключевых точек позы для изучения особенностей локального выравнивания не может дать удовлетворительных результатов, поскольку он все еще находится на стадии грубой детализации. Следовательно, необходимо разработать архитектуру, которая эффективно изучает плотную информацию о семантическом выравнивании.
Предлагаемый метод для текста в основном реализует мелкозернистое семантическое выравнивание и изучение признаков семантического выравнивания в области ReID. Решите проблему смещения, вызванную изменениями положения и перспективы, отклонением рамки обнаружения, окклюзией и другими явлениями.
Во-первых, мы предлагаем плотную структуру семантического выравнивания, которая устанавливает плотные связи между 2D-изображениями пешеходов и каноническими представлениями человека на основе 3D-пространства поверхности. Выровнены не только крупнозернистые области частей тела, но и содержимое области также плотно выровнено на уровне пикселей. Фигура 2:
3D-пространство относится конкретно к UV-пространству. UV-пространство — это концепция трехмерного моделирования. UV — это точное соответствие каждой точки изображения поверхности объекта модели. Положение зазора между точками обрабатывается программой для плавной интерполяции изображения. Исходное входное изображение преобразуется в UV-пространстве в 24 плотно семантически выровненных изображения частей (DSAP-изображения), которые семантически выровнены.
Во-вторых, мы предлагаем основу для управления представлениями плотного семантического выравнивания. Он использует плотную информацию о семантическом выравнивании, чтобы заставить основную сеть изучать функции семантического выравнивания из исходного изображения. Фреймворк проходит совместное сквозное обучение, что позволяет двум процессам взаимодействовать и совместно оптимизироваться.
Модель
Построение изображений DSAP
Блок-схема модели показана на рисунке 3 ниже и включает два процесса: основной поток полного изображения; (MF-Stream) и плотно семантически выровненный направляющий процесс поток (DSAG-Stream), основанный на модуле плотного семантического выравнивания, в статье создаются 24 плотно семантически выровненных изображения частей (DSAP-изображения) в качестве входных данных DSAG-Stream. Эти 24 изображения сопоставляются с моделью человеческого тела и представляются двумерным UV-пространством. Одни и те же UV-координаты представляют одну и ту же семантику. Следовательно, такое представление может количественно определять положение, За счет плотного представления сегментации достигается желаемый эффект выравнивания.
В статье используется сеть DensePose, обученная на наборе данных COCO, для сегментации семантики 24 человеческих тел на 2D-изображениях и предоставляется значение двумерной координаты (значение от 0 до 1) в УФ-пространстве для каждого пикселя каждой обнаруженной части тела. . На основе этой семантики каждая часть изображения деформируется в изображение SxS DSAP, а затем пиксели RGB копируются в соответствующие позиции деформированного изображения.
Авторы считают, что такой подход имеет три преимущества:
1) Преодолеть пространственное смещение, вызванное различными изменениями перспективы и позы, а также неточным обнаружением.
2) За счет выбора семантики человеческого тела можно избежать различных помех, вызванных фоном.
3) Он невосприимчив к внешним помехам, вызванным окклюзией, поскольку семантика не оценивается в окклюзированных объектах.
Но в то же время есть некоторые проблемы с DSAP-образами:
1) Полезная нагрузка образа DSAP слишком разрежена.
2) Плотные семантические оценки не оптимальны.
3) При удалении фона также удаляется некоторая действительная информация (например, красный рюкзак).
Совместная программа обучения Совместное обучение нашей сети
Из-за вышеупомянутых недостатков (автор также признает, что, если метод изображения DSAP используется отдельно, результаты не улучшатся), автор разрабатывает сквозную обученную сеть для управления семантически выровненной информацией об объектах для обучения. исходное изображение. Преимущество такой схемы в том, что регулятор больше не нужен, что делает вычисления более эффективными. Это также устраняет зависимость от плотных семантических оценок и повышает надежность системы.
Эта сквозная обучающая сеть достигается за счет интеграции функций процесса DSAG и процесса MF.Для этой цели сеть разработана в двух процессах для глобального и локального извлечения признаков.
Процесс DSAG состоит из многоветвевых подсетей (MB-N) и небольшой головной сети, состоящей из глобальных и локальных ветвей. Структура сети показана в таблице 1:
Подсеть MB-Ns извлекает информацию о локальных функциях из изображений частей тела и объединяет их в измерении канала.Здесь есть два уровня слияния, чтобы постепенно объединять функции связанных частей тела, используя симметрию человеческого тела, делая перспективу более надежный и уменьшающий количество ветвей. В статье выбрано объединение локальной информации для создания 8 отдельных карт объектов. Семантика пары лево-правых симметричных частей семантически выравнивается в UV-пространстве, а признаки добавляются поэлементно при слиянии первого уровня. При слиянии второго уровня статья объединяет две ветви, соответствующие передней и задней симметричным частям, и, наконец, получает 8 ветвей, как показано на рисунке 4.
Сеть Head включает в себя два филиала, локальный и глобальный. Глобальная ветвь получает 2048-мерные функции посредством объединения, а глобальные функции:
локальная ветвь, выходные данные состоят из 8 256-мерных векторов, сложенных друг в друга, а локальные функции:
В процессе MF характеристики, выдаваемые магистралью, используются в качестве входных данных для локальной и глобальной ветвей в последующем процессе MF. Структура сети Head аналогична процессу DSAG. Выходы локальной и глобальной ветвей в Процесс MF используется не только для слияния, но также используется для контроля основной задачи ReID.
Слияние признаков — это локальный процесс MF с локальным DSAG и глобальный процесс MF с глобальным DSAG, а поэлементное суммирование выполняется один к одному.
Схема потерь показана на рис. 3. После двустороннего слияния признаков можно получить потери ID и жесткие потери Triplet соответственно.
эксперимент
Эксперименты SOTA для каждого теста следующие:
Эксперимент разделения каждой структуры сети выглядит следующим образом:
Эксперимент по разделению плотной семантики и разреженной семантики:
Для эксперимента по разделению слияния признаков:
письмо
Написание этой статьи очень хорошее, очень логичное и стандартное. Хотя научно-исследовательские работы — это восьминогие эссе, они могут быть развиты через сто лет и имеют свою рациональность. Я буду следить за идеями написания его введения и поделюсь с вами:
Во-первых, согласно международной практике: сначала внедрить ReID, а также проблемы/болевые точки, с которыми сталкивается ReID
Затем сосредоточьтесь на проблеме, которую необходимо решить методом, описанным в этой статье.Какую болевую точку вы решаете, вы должны записать «тяжесть» этой болевой точки. Чтобы увеличить проблему, которую нужно решить, нужно увеличить свой вклад. Как проще всего увеличить масштаб? Это «я сделал то, что другие не сделали».
Начните говорить о чужой работе, в основном следуйте:
Метод А сделал ххх. Тем не менее, они не решили эту болевую точку, и есть ххх недостатки.
Метод Б сделал ххх. Однако они не решили эту болевую точку хорошо и имеют недостаток xxx.
Метод C сделал xxx. Однако они не решили эту болевую точку хорошо и имеют недостаток xxx.
....
Рассказав о недостатках других, напоследок привожу достоинства этой работы: если другие не решили, то решили мы.Наша работа может не только ххх, но и ххх. Как показано ниже:
Затем начнем кратко знакомить с первой частью работы этой статьи.Во-первых, предлагается метод плотного семантического выравнивания, основанный на отображении UV-пространства, который достигает эффекта от ххх (преимущества, характеристики, возможности) через ххх (принцип):
Соединив вышесказанное, спросив и ответив: Однако введение маппинга в UV-пространство может вызвать проблемы, к ним относятся:
Вопрос 1) ххх,
Вопрос 2) ххх,
Вопрос 3) ххх.
...
Поэтому, чтобы решить эти проблемы, в этой статье предлагается модельная структура для лучшего поиска семантически выровненных информационных представлений для повторной идентификации человека.
Это приводит к введению второй части, которая использует xxx (принцип) для достижения эффекта xxx (преимущества, характеристики, способности):
Наконец, согласно международной практике, перечислите взносы:
Жить вместе.
использованная литература
[1] Zhang Z, Lan C, Zeng W, et al. Densely semantically aligned person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 667-676.