2021 - Обзор многообъектного отслеживания в видеонаблюдении

глубокое обучение компьютерное зрение

​Эта статья взята из документа 2021 г. В документе кратко рассматриваются существующие модели SOTA и алгоритмы MOT, обсуждается глубокое обучение в многоцелевом отслеживании, вводятся метрики оценки, наборы данных и результаты тестов и, наконец, делается вывод.

Эта статья взята из технического руководства по публичному аккаунту CV.

Обратите внимание на техническое руководство по общедоступной учетной записи CV, уделив особое внимание техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.

图片

Многоцелевое отслеживание (MTT) в видеонаблюдении — важная и сложная задача, которая привлекла большое внимание исследователей в связи с ее потенциальными приложениями в различных областях. Задачи отслеживания нескольких объектов требуют индивидуального нахождения объектов в каждом кадре, что остается огромной проблемой, поскольку внешний вид объектов меняется мгновенно и возникает экстремальная окклюзия. В дополнение к этому, структура отслеживания нескольких объектов должна выполнять несколько задач, а именно обнаружение объектов, оценку траектории, межкадровую ассоциацию и повторную идентификацию. Были предложены различные подходы и сделаны некоторые предположения, чтобы ограничить проблему контекстом конкретной проблемы. В этой статье представлен обзор моделей MTT, которые используют репрезентативную силу глубокого обучения.

Многоцелевое сопровождение делится на две основные задачи: обнаружение цели и сопровождение. Чтобы различать объекты внутри группы, алгоритм МТТ связывает с каждым обнаруженным объектом уникальный идентификатор, который остается специфичным для этого объекта в течение определенного времени. Эти идентификаторы затем используются для генерации траектории движения отслеживаемого объекта.

图片

Точность обнаружения цели определяет эффективность системы сопровождения цели. На точность модели МТТ сильно влияют такие факторы, как изменение масштаба, частое переключение идентификатора, вращение и изменение освещения. На рис. 1 показаны результаты работы алгоритма МТТ. Кроме того, в многоцелевой системе сопровождения есть сложные задачи, такие как фоновые помехи, движение назад, инициализация и прекращение отслеживания. Чтобы преодолеть эти проблемы, исследователи предложили различные стратегии с использованием глубоких нейронных сетей.

Классификация алгоритмов МТТ

В зависимости от того, как инициализируются объекты, реализации MOT можно классифицировать как основанные на обнаружении (DBT) или на основе отслеживания без обнаружения (DFT). Однако модели MTT нормализуются вокруг обучения на основе обнаружения, где обнаружения (идентификация объектов в кадрах) извлекаются в качестве шага перед отслеживанием. Поскольку для идентификации объектов в DBT требуется детектор объектов, производительность сильно зависит от качества детектора, поэтому выбор системы обнаружения имеет решающее значение.

Отслеживание без обнаружения (DFT)

Выход детектора обычно используется в качестве входных данных для трекера, чей выход подается на алгоритм прогнозирования движения, который предсказывает, куда объект будет двигаться в следующие несколько секунд. Однако при отслеживании без обнаружения это не так.Модели на основе ДПФ требуют, чтобы в первом кадре вручную было инициализировано фиксированное количество объектов, которые затем должны быть локализованы в последующих кадрах..

ТПФ — сложная задача, поскольку информация об отслеживаемых объектах ограничена и неясна. В результате начальная ограничивающая рамка только приближает интересующий объект на заднем плане, а внешний вид объекта может сильно измениться с течением времени.

Онлайн отслеживание

Алгоритм онлайн-отслеживания, также известный как последовательное отслеживание,Создание прогнозов для текущего кадра на основе прошлой и настоящей информации. Этот тип алгоритма обрабатывает кадры поэтапно. В некоторых приложениях, таких как автономное вождение и навигация роботов, эта информация необходима.

Пакетное отслеживание

Чтобы определить идентичность объектов в данном кадре, методы пакетного отслеживания (автономного отслеживания) используют информацию из предыдущих кадров. они частоУлучшите качество отслеживания, используя глобальные данные, однако не всегда возможно обработать все кадры сразу из-за ограничений вычислительных ресурсов и памяти.

Алгоритмы глубокого обучения

Основные шаги, общие для большинства алгоритмов, следующие:

Стадия обнаружения объекта: используйте ограничительные рамки для поиска объектов в серии кадров путем анализа входных кадров.

Этап прогнозирования движения: Анализ обнаружений для извлечения характеристик внешнего вида, движения или взаимодействия.

Этап расчета сходства: Используйте извлеченные функции для расчета сходства/расстояния между парами обнаружения.

Стадия ассоциации: использовать метрики сходства/расстояния в ассоциации, предоставляя один и тот же идентификатор обнаружениям, соответствующим одному и тому же объекту.

этап обнаружения

Этап обнаружения в основном использует некоторые алгоритмы обнаружения целей.

Единая сверточная нейронная сеть YOLO напрямую прогнозирует несколько ограничивающих рамок и вероятности классов из полного изображения за одну оценку, обучается на полном изображении и напрямую оптимизирует эффективность обнаружения, изучая обобщенное представление цели. Однако YOLO накладывает строгие пространственные ограничения на предсказания ограничивающей рамки, ограничивая количество смежных элементов, которые может предсказать модель. Мелкие объекты, которые появляются группами, например, птицы, также проблематичны для этой модели.

более быстрая R-CNN, единая унифицированная сеть распознавания объектов, состоящая из CNN полной глубины, повышает точность и эффективность обнаружения при одновременном снижении вычислительных затрат. Модель объединяет метод обучения, который чередуется между точной настройкой региональных схем, позволяя унифицированной системе распознавания объектов на основе глубокого обучения работать с частотой кадров, близкой к реальному времени, и затем точной настройкой обнаружения объектов при сохранении фиксированных объектов.

На некоторых видеозаписях окклюзия настолько часта, что невозможно определить всю форму объекта, как в случае с человеком.

Чтобы решить эту проблему, Хан и др. предложили модель временной согласованности, обученную обнаруживать только положение головы. такой же,Также были изучены некоторые методы отслеживания только положения головы., а не вся форма тела.

Бьюли предложил структуру SORT на EL29, чтобы использовать возможности обнаружения на основе CNN, которые обеспечивают лучшую в своем классе производительность как по скорости, так и по точности на переднем плане MOT, который фокусируется на покадровом прогнозировании и корреляции. Заменив обнаружения, полученные из агрегированных характеристик канала (ACF), на те, которые вычислены Faster RCNN, он может быть оценен как лучший на основе архитектуры фильтра Калмана и венгерского алгоритма. В некоторых случаях CNN используются на этапе обнаружения для целей, отличных от построения ограничивающих рамок объекта.

Для отслеживания нескольких целей (например, автомобилей), сочетая новую стратегию надежного обнаружения и бинарных классификаторов, для надежной и точной идентификации нескольких транспортных средств Мин предложил модернизированный ViBe. Когда алгоритм ViBe используется для идентификации автомобилей, CNN используют его для устранения ложных срабатываний. Он эффективно подавляет динамический шум и быстро удаляет ореолы и остаточные тени от объектов.

Этап прогнозирования движения

Производительность может быть улучшена, если для изучения функций MOT, таких как временные и пространственные карты внимания или временной порядок, используются глубокие модели. Некоторые сквозные модели, основанные на глубоком обучении, могут не только извлекать характеристики дескрипторов внешнего вида, но и характеристики информации о движении.

Один из первых подходов к применению DL в трубопроводах MOT был предложен Wang et al. Система в полной мере использует преимущества устройства слежения за одной целью и решает проблему дрейфа, вызванного окклюзией, без ущерба для вычислительной мощности. Карта видимости объекта изучается, а затем используется для вывода пространственной карты внимания, которая затем используется для взвешивания функций. Кроме того, карты видимости можно использовать для оценки состояний окклюзии. Это так называемый процесс временного внимания.

Наиболее часто используемые методы на основе CNN можно разделить на классические CNN для извлечения признаков и сиамские CNN.

Классический CNN

Ким и др. утверждают, что методы отслеживания множественных гипотез (MHT) совместимы с существующими перспективами визуального отслеживания. Достижения в области современных методов отслеживания на основе обнаружения и разработка эффективных представлений признаков внешнего вида объектов открыли новые возможности для процесса MHT. Они улучшают MHT, включая регуляризованную структуру наименьших квадратов для онлайн-обучения модели внешнего вида для каждого отслеживаемого объекта.

Войке и др. предложили усовершенствование СОРТИРОВКИ, которое, достигая большей точности и точности при высокой частоте кадров, производило относительно больше сдвигов единиц. Войке и др. улучшили его, включив информацию о внешнем движении, преодолев эту проблему, заменив метрику ассоциации сверточной нейронной сетью (CNN). Сверточные нейронные сети обучены различать пешеходов в крупномасштабных наборах данных повторной идентификации людей. По сравнению с SORT модернизированная система отслеживания эффективно сокращает количество подмен удостоверений с 1423 до 781. Это сокращение примерно на 45%, что обеспечивает конкурентоспособную производительность при сохранении скорости в реальном времени.

Siamese CNN

Было показано, что сиамская CNN полезна в MOT, поскольку цель изучения признаков на этапе отслеживания состоит в том, чтобы определить сходство между обнаружением и отслеживанием.

Leal-taxe и др. предлагают стратегию для двухэтапного метода обнаружения совпадений, который обеспечивает новый взгляд на проблему ассоциации объектов при отслеживании пешеходов. В этом случае они применяют концепцию CNN к отслеживанию нескольких человек и предлагают изучить суждение о том, относятся ли два обнаружения к одной и той же траектории, чтобы избежать ручной разработки функций для ассоциации данных. Структура обучения модели разделена на два этапа.

CNN предварительно обучается в сиамской структуре для измерения сходства двух областей изображения одинакового размера, а затем CNN объединяется с собранными функциями для получения прогнозов. Они хорошо решают проблему отслеживания, описывая проблему отслеживания как линейное программирование и комбинируя глубокие функции и информацию о движении с методами повышения градиента.

Этап расчета сходства

В то время как в некоторых реализациях используются модели глубокого обучения для мгновенного создания оценок близости без явного показателя расстояния между функциями, существуют и другие подходы к вычислению разницы между отслеживанием и обнаружением путем применения некоторой метрики расстояния к функциям, полученным с помощью CNN Affinity.

Милан и др. решают сложную проблему ассоциации данных и оценки траектории в контексте нейронных сетей. Оценка состояния отслеживаемой цели в онлайн-задаче MOT использует рекурсивный байесовский фильтр, состоящий из прогнозирования и обновления наблюдений.Эта модель расширяет RNN для моделирования процесса и целевого состояния, существующих наблюдений и соответствующих им матриц соответствия и наличия передний план подается в сеть в качестве входных данных. Модель выводит прогнозируемое состояние и результат обновления цели, а также вероятность существования определения того, завершена ли цель, и обеспечивает хороший эффект отслеживания.

Вместо вычисления сродства между мишенью и детектором Chen et al. Вместо этого обнаружения, несовместимые с отслеживаемым объектом, используются для создания новых траекторий и восстановления потерянных объектов. Хотя это алгоритм онлайн-мониторинга, на момент публикации он смог добиться наилучших результатов на MOT15, используя как общедоступные, так и частные обнаружения.

Фаза отслеживания/ассоциации

Глубокое обучение использовалось в некоторых моделях MTT для улучшения шага ассоциации.

Ма и др. использовали двунаправленный GRU, чтобы решить, где терминировать трекеры при расширении сети сиамских трекеров. Для каждого обнаружения сеть извлекает характеристики траектории и отправляет их в двунаправленную сеть GRU, чьи выходные данные на короткое время объединяются в евклидовом пространстве, чтобы обеспечить общую характеристику траектории. Во время отслеживания генерируются субтреки на основе локальных расстояний между двунаправленными выходами ГРУ, которые затем разбиваются на небольшие субтреки; наконец, эти субтреки снова соединяются в длинную траекторию. В наборе данных MOT16 результаты, полученные этим методом, сравнимы с современным SOTA.

Лерне и др. предлагают совместную реализацию задач ассоциации с использованием нескольких агентов глубокого RL (обучения с подкреплением). Сеть прогнозирования и сеть принятия решений являются двумя ключевыми компонентами модели. Используя последние отслеживаемые траектории, CNN используется в качестве сети прогнозирования и обучается прогнозировать движение объекта в новых кадрах.

другие методы

В дополнение к модели на основе вышеупомянутых четырех шагов, есть некоторые другие методы.

Цзян и др. использовали агент Deep RL для завершения регрессии ограничивающей рамки, что повысило эффективность алгоритма отслеживания; VGG-16CNN использовался для извлечения внешности, извлеченные признаки были сохранены, а история последних 10 перемещений цели был использован, а затем интегрированная сеть предсказала движение ограничительной рамки, масштабирование и один из нескольких альтернативных результатов. В наборе данных MOT15 использование этого метода регрессии ограничивающих рамок для нескольких современных алгоритмов MOT улучшает от 2 до 7 абсолютных баллов MoTA, что ставит его на первое место среди общедоступных методов обнаружения.

Сян и др. развернули MetricNet для отслеживания пешеходов, объединив модель сходства с оценками траектории, полученными с помощью байесовских фильтров. Используйте VGG-16CNN для повторной идентификации цели, извлечения признаков и выполнения регрессии ограничивающей рамки.Модель движения разделена на две части, одна часть принимает в качестве входных данных координаты траектории, другая часть объединяется с кадром обнаружения для байесовской фильтрации, и на MOT16 и MOT15. Обновленная позиция выходной цели, алгоритм достигает наилучшего и второго наилучшего результата соответственно среди онлайн-методов.

Недавние достижения в алгоритмах SOT с отслеживанием одного объекта без использования моделей значительно расширили применение SOT в отслеживании нескольких объектов (MOT) для повышения устойчивости и снижения зависимости от внешних детекторов. С другой стороны, алгоритмы SOT обычно предназначены для того, чтобы отличать объекты от их окружения, и они часто сталкиваются с проблемами, когда объекты пространственно смешиваются с аналогичными артефактами, как это видно в MOT.

Чу и др. предложили модель для обеспечения надежности и устранения зависимости от внешних детекторов. Они реализовали модель, используя три разных CNN в своем алгоритме. Интегрируйте PafNet, чтобы различать фоновые и отслеживаемые объекты. Эта часть отличает цель отслеживания, а другая интегрированная CNN — это сверточный уровень, который решает, нужно ли обновлять модель отслеживания. Восстановление после окклюзии объекта с использованием неассоциативного обнаружения с использованием классификаторов машины опорных векторов и венгерского метода. Алгоритм был протестирован на наборах данных MOT15 и MOT16, первый метод дал наилучшие общие результаты, а второй дал лучшие результаты среди онлайн-методов.

Метрики оценки

Наиболее актуальными являются классические метрики и метрики CLEAR MOT.

Classical metricsУказывает на подводные камни, с которыми может столкнуться алгоритм, напримерТраектория отслеживания нескольких целей (MT), траектория множественных потерь (ML), переключение идентификаторовЖдать.

CLEAR MOT metricsимеютMOTA (точность отслеживания нескольких объектов) и MOTP (точность отслеживания нескольких объектов). MOTA объединяет ложные срабатывания, ложноотрицательные результаты и коэффициенты несоответствия в одно значение, что обеспечивает в целом хорошую производительность отслеживания. Несмотря на некоторые недостатки и жалобы, это, безусловно, наиболее широко используемый метод оценки. MOTP описывает точность отслеживания объектов с использованием перекрытия ограничивающей рамки и/или измерения расстояния.

Эталонный набор данных

Наборы эталонных данных включают MOTChallenger, KITTI, UADETRAC..

Набор данных MOTChallest — это самый большой и полный доступный в настоящее время набор данных для отслеживания пешеходов, предоставляющий больше данных для обучения глубоких моделей. MOT15, исходный набор данных испытаний MOT, содержит видео с набором атрибутов, которые модель должна лучше обобщить, чтобы получить хорошие результаты. MOT16 и MOT19 — другие модифицированные версии.

Сравнительные результаты

Опубликованные результаты, протестированные на наборе данных MOT ChallengeMOT15 и наборе данных MOT16, перечислены ниже для Gioele et al., которые были записаны из соответствующих публикаций, чтобы обеспечить четкое сравнение результатов между методами, упомянутыми в этой работе.

图片

Поскольку качество обнаружения влияет на производительность, результаты исследований делятся на общедоступные модели, основанные на обнаружении, и частные модели, основанные на обнаружении. Эти методы делятся на две категории: онлайн и офлайн.

Год публикации справочного документа, его режим работы, метрики MOTA, MOTP, IDF1, Main Tracking (MT) и Main Loss (ML), выраженные в процентах, ложноположительные (FP), ложноотрицательные (FN), переключение ID (IDS)) и абсолютное количество фрагментов (Frag); скорость работы алгоритма в кадрах в секунду (Hz).

Для каждого показателя стрелки вверх (↑) указывают на более высокие баллы, а стрелки вниз (↓) указывают на противоположные баллы. Наилучшая производительность подчеркивается для моделей, работающих в одном и том же режиме (пакетный/онлайн), и каждая статистика выделена жирным шрифтом. Мы только перечисляем результаты, полученные от моделей, посещенных в этом обзоре, в таблицах 2 и 3.

В реальности использование глубокого обучения и моделей с режимами онлайн-обработки дало самые большие результаты. Однако это может быть результатом большего внимания к созданию онлайн-методов, которые становятся все более и более популярными в исследовательском сообществе глубокого обучения MOT. Обширная фрагментация — частая проблема онлайн-методов, которая не отражается в баллах MOTA. Когда окклюзии или обнаружения теряются, онлайн-алгоритм не смотрит вперед, повторно идентифицирует потерянные объекты и не вставляет в видео отсутствующие сегменты траектории.

в заключении

В этой статье представлено краткое исследование подходов к решению проблемы МТТ с использованием глубокого обучения. В этом исследовании обсуждаются решения для каждого из четырех этапов использования глубокого обучения для решения проблемы MTT, в результате чего общее количество методов MOT для SOTA достигает n.

Кратко обсуждается оценка алгоритма MOT, включая меры оценки и результаты сравнительного анализа из доступных наборов данных. Трекеры отдельных объектов недавно выиграли от внедрения глубоких моделей в алгоритмы глобальной оптимизации графов, что привело к созданию высокопроизводительных онлайн-трекеров; с другой стороны, методы пакетной обработки выиграли от внедрения глубоких моделей в алгоритмы глобальной оптимизации графов.

Добро пожаловать в техническое руководство CV для общедоступной учетной записи, в котором основное внимание уделяется техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.

Ответьте на ключевое слово «техническое резюме» в официальном аккаунте, чтобы получить краткий PDF-файл исходной технической сводной статьи официального аккаунта.

Другие статьи

Понимание алгоритмов обнаружения объектов с единой точки зрения: анализ и сводка последних достижений

10 обязательных к прочтению работ по восстановлению изображения | Краткое описание извлечения признаков изображения HOG и SIFT

Всестороннее понимание якорей в обнаружении целей | Резюме сегментации экземпляра Резюме Полное издание
Обзор одноэтапной сегментации экземпляров | Некоторые проблемы, идеи и решения обнаружения малоразмерных целей
CVPR2021 | SETR: переосмысление семантической сегментации с точки зрения от последовательности к последовательности с использованием преобразователей

Обсуждение размера модели глубокого обучения и скорости вывода модели

Резюме функции потерь регрессии при обнаружении цели | Краткое изложение распространенных методов обнаружения малых целей

Разница между обнаружением видеообъекта и обнаружением объекта изображения

Обзор сиамской сети | Обзор оценки позы | Обзор семантической сегментации

Обзор визуального преобразователя | Обзор последних исследований по обнаружению малоразмерных целей в 2021 году

Опыт работы и восприятие алгоритма CV от года

Обзор понимания видео: распознавание действий, расположение последовательности действий, встраивание видео

Состояние компьютерного зрения из докладов CVPR 2021

ICCV2021 | MicroNet: Улучшение распознавания изображений с очень низкими значениями FLOP

ICCV2021 | Глубокое понимание CNN

ICCV2021 | Переосмысление пространственного измерения визуальных трансформеров

CVPR2021 | TransCenter: Преобразователи для алгоритмов многообъектного отслеживания

CVPR2021 | Обнаружение объектов в открытом мире

CVPR2021 | TimeSformer — пространственно-временная модель внимания для понимания видео

CVPR2021 | Эффективный модуль внимания сегментации пирамиды PSA

CVPR2021 | Новый способ функциональной пирамиды YOLOF

Серия Classic Paper | Капсульные сети: новые сети глубокого обучения

Серия Classic Paper | Переосмысление предварительного обучения в ImageNet

Классическая серия статей | Дефекты групповой нормализации и BN

Классическая серия документов | Обнаружение целей - CornerNet и также известные как дефекты якорных ящиков

Классическая серия статей | Подходы к преодолению разрыва между обнаружением на основе привязки и обнаружением без привязки: выбор адаптивного обучающего образца