ICCV2021 | Переосмысление подсчета и локализации в толпе: чисто основанная на баллах структура

искусственный интеллект компьютерное зрение

Диссертация: Переосмысление подсчета и локализации в толпе: чисто точечная структура

Код:GitHub.com/Tencent, ваше тело…

Обратите внимание, сосредоточьтесь на техническом обзоре компьютерного зрения, новейших технологий отслеживания и интерпретации классических статей.

Предисловие:

Обнаружение особей в популяции более практично для последующих расширенных задач анализа популяции, чем просто их подсчет. Однако существующие методы, основанные на локализации, основанные на промежуточных представлениях (например, картах плотности или псевдоящиках) в качестве целей обучения, нелогичны и подвержены ошибкам.

В документе предлагается чисто точечная структура для совместного подсчета толпы и индивидуальной локализации. Для этой структуры в документе предлагается новая метрика, называемая нормализованной средней точностью плотности (nAP), а не просто отчет об ошибках абсолютного подсчета на уровне изображения, чтобы обеспечить более полную и точную оценку производительности.

Кроме того, в документе разработано интуитивно понятное решение в рамках этой структуры, называемое одноранговой сетью (P2PNet). P2PNet отбрасывает избыточные шаги и напрямую прогнозирует набор точечных предложений для представления голов на изображении, что согласуется с результатами аннотации человека. Благодаря тщательному анализу в документе показано, что ключевым шагом в реализации этой новой идеи является определение оптимальных целей обучения для этих предложений.

P2PNet не только значительно превосходит методы SOTA в популярных тестах подсчета, но и обеспечивает многообещающую точность локализации.

Точка отправления

  1. Среди всех соответствующих конкретных задач анализа популяции подсчет популяции является фундаментальным столпом, направленным на оценку количества особей в популяции. Однако простое указание числа, очевидно, далеко не в состоянии удовлетворить фактические потребности последующих задач анализа толпы более высокого уровня, таких как отслеживание толпы, распознавание активности, обнаружение аномалий, прогнозирование движения/поведения и т. д.

  2. На самом деле, в этой области наблюдается четкая тенденция к более сложной точной оценке (т. е. местонахождению отдельных лиц), помимо простого подсчета. В частности, некоторые подходы рассматривают подсчет толпы как проблему обнаружения головы, но больше усилий уделяют трудоемкому аннотированию мелких голов. Другие методы пытались создать псевдоограничивающие рамки для головок, которые предоставляют только точечные аннотации, но это, по крайней мере, кажется сложным или неточным. Кроме того, пытаясь локализовать людей напрямую, некоторые методы увязают в подавлении или разделении экземпляров-кандидатов, которые находятся слишком близко, и они подвержены ошибкам из-за резких изменений масштаба головы, особенно в густонаселенных регионах.

  3. Что касается метрик оценки, некоторые дальновидные работы поощряют детальную оценку с метриками на уровне исправлений, но они дают лишь приблизительную меру локализации. Другие существующие метрики с учетом местоположения либо игнорируют значительные изменения плотности скопления людей, либо не наказывают штрафы за повторяющиеся прогнозы.

Инновационные идеи

  1. Для решения вышеперечисленных проблем в документе предлагается чисто точечная структура для совместного подсчета и определения местоположения людей в толпе. Платформа напрямую использует точечные аннотации в качестве целей обучения, при этом выводя точки для локализации отдельных лиц, используя свойства высокоточной локализации точечных представлений и относительно низкие затраты на аннотации.

  2. В документе предлагается новая метрика, называемая нормализованной средней точностью плотности (nAP), которая обеспечивает комплексную метрику оценки локализации и ошибок подсчета. Метрика nAP поддерживает представления прямоугольников и точек в качестве входных данных (т. е. прогнозы или аннотации) без вышеупомянутых недостатков.

  3. В качестве интуитивно понятного решения в этой новой структуре в статье разрабатывается новый метод прямого прогнозирования набора точечных предложений с координатами головы на изображении и их достоверностью. В частности, в документе предлагается одноранговая сеть (P2PNet) для прямого получения набора аннотированных головных точек для обучения и прогнозирования точек во время логического вывода.

    Для того, чтобы такая идея работала правильно, в статье подробно рассматривается процесс назначения целевых ориентиров, чтобы раскрыть суть этой ассоциации. Вывод состоит в том, что если несколько предложений соответствуют одной основной истине или наоборот, это сбивает модель во время обучения, что приводит к завышенным или заниженным подсчетам.

    Поэтому в документе предлагается взаимно однозначное сопоставление с помощью венгерского алгоритма для связывания точечных предложений с их целевыми истинными целями, а несопоставленные предложения следует классифицировать как отрицательные выборки. Эмпирически показано, что это сопоставление полезно для улучшения показателя nAP как ключевого компонента решения, предложенного в документе, в рамках новой структуры. Этот простой, интуитивно понятный и эффективный дизайн обеспечивает производительность подсчета SOTA и многообещающую точность локализации.

Methods

Purely Point-based Framework

Вот краткое описание мышления, лежащего в основе этой новой структуры. Учитывая изображение с N людьми, используйте N точек, чтобы представить центральную точку головы человека. Сеть выводит две вещи: одна — центральная точка P прогнозируемой головы, а другая — достоверность C центральной точки. Цель состоит в том, чтобы сделать предсказанные точки как можно ближе к истине с достаточно высокой достоверностью.

По сравнению с традиционными методами подсчета отдельные местоположения, предоставляемые этой платформой, полезны для таких задач анализа толпы на основе движения, как отслеживание толпы, распознавание активности, обнаружение аномалий и т. д. Кроме того, инфраструктура не полагается на трудоемкую маркировку, неточные псевдобоксы или сложная постобработка, выиграют от свойств высокоточной локализации необработанных точечных представлений, особенно для мест с большим скоплением людей в толпе.

Таким образом, эта новая структура заслуживает большего внимания из-за ее преимуществ и практической ценности по сравнению с традиционным подсчетом толпы. Однако справиться с такой задачей очень сложно из-за серьезных окклюзий, вариаций плотности и ошибок маркировки, которые даже считаются идеальными, но невыполнимыми в [13].

Density Normalized Average Precision

Предсказанная точка pj классифицируется как TP, только если она может соответствовать некоторой истинной точке pi. Процесс сопоставления управляется критерием евклидова расстояния на уровне пикселей (ˆpj , pi). Однако прямое использование расстояния между пикселями для измерения сходства игнорирует побочный эффект больших различий плотности между популяциями. Поэтому для этого критерия согласования вводится нормализация плотности, чтобы облегчить проблему изменения плотности.

Проще говоря, это ввести ближайших соседей K (возьмем 3) точек и нормализовать их расстояния.

图片

Формула выражается следующим образом:

图片

Схема сопоставления предсказания и наземной истины

图片

(a) При выборе ближайшего предложения для каждой точки наземных измерений несколько точек наземных измерений могут совпадать с одним и тем же предложением, что может привести к недоучету. (b) При выборе ближайшей истинной точки для каждого предложения несколько предложений могут совпадать с одной и той же точкой истинности, что приводит к высоким оценкам. (c) В статье отсутствуют два вышеуказанных дефекта для однозначного сопоставления с помощью венгерского алгоритма, поэтому она подходит для прямого точечного прогнозирования.

P2PNet

图片

Общая архитектура P2PNet

Основываясь на VGG16, он впервые представляет путь повышения дискретизации для получения детальных карт с глубокими признаками. Затем он использует обе ветви для одновременного прогнозирования набора точечных предложений и их оценок достоверности. Важным шагом в конвейере является обеспечение однозначного соответствия между точечными предложениями и точками истинности, что определяет цель обучения этих предложений.

Функция потерь выглядит следующим образом:

图片

Conclusion

图片

图片

Эта статья взята из серии публикаций в Техническом руководстве CV для общедоступных аккаунтов.

Добро пожаловать в техническое руководство CV для общедоступной учетной записи, в котором основное внимание уделяется техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.

Другие статьи

Техническое руководство по CV - Резюме и классификация основных статей

Самостоятельное внимание в компьютерном зрении

Обзорная колонка | Обзор оценки позы

Говоря об оптимизации CUDA

Почему GEMM лежит в основе глубокого обучения

Почему 8 бит достаточно для использования глубоких нейронных сетей?

Серия Classic Paper — Капсульные сети: новая сеть глубокого обучения

Классическая серия документов | Обнаружение целей - CornerNet и также известные как дефекты якорных ящиков

Как просмотреть пузырь искусственного интеллекта

Четкое обнаружение границ с использованием Dice loss

PVT — многофункциональная основа для плотного прогнозирования без свертки

CVPR2021 | Обнаружение объектов в открытом мире

Siamese networkСводка

Визуальное обнаружение и распознавание объектов Прошлое, настоящее и возможное

Какие концепции или методы вы освоили за свою карьеру инженера-алгоритма, которые заставляют вас чувствовать, что вы выросли как на дрожжах?

Краткое изложение терминологии компьютерного зрения (1) Создание системы знаний для компьютерного зрения

Краткое изложение методов недообучения и переобучения

Резюме методов нормализации

Краткое изложение общих идей бумажных инноваций

Резюме методов эффективного чтения англоязычной литературы по направлению CV

Обзор непродолжительного обучения компьютерному зрению

Краткий обзор дистилляции знаний

Оптимизировать скорость чтения видео OpenCV

Сводка NMS

Краткое изложение методов функции потерь

Техническое резюме механизма внимания

Краткое изложение технологии пирамиды функций

Краткое изложение технологии объединения

Краткое изложение методов увеличения данных

Резюме эволюции структуры CNN (1) Классическая модель

Резюме эволюции структуры CNN (2) Облегченная модель

Резюме эволюции структуры CNN (3) Принципы проектирования

Как увидеть будущее направление компьютерного зрения

Краткое изложение технологии визуализации CNN (1) Визуализация карты объектов

Краткое описание технологии визуализации CNN (2) Визуализация ядра свертки

Краткое изложение технологии визуализации CNN (три) визуализации

Краткое описание технологии визуализации CNN (4) инструменты и проекты визуализации