предисловие
В этом документе представлена сквозная модель преобразования для визуального отслеживания, которая способна фиксировать глобальные зависимости пространственных и временных характеристик информации в видеопоследовательностях. Производительность SOTA достигается на пяти сложных краткосрочных и долгосрочных тестах с производительностью в реальном времени, что в 6 раз быстрее, чем у Siam R-CNN.
Эта статья взята из технического руководства по публичному аккаунту CV.Серия обмена бумагой
Обратите внимание на техническое руководство по общедоступной учетной записи CV, уделив особое внимание техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.
Диссертация: Изучение пространственно-временного преобразователя для визуального отслеживания
Backgound
Сверточные ядра не подходят для моделирования долгосрочных корреляций содержимого и характеристик изображения, потому что они имеют дело только с локальными окрестностями, либо в пространстве, либо во времени.Популярные в настоящее время трекеры, в том числе автономные сиамские трекеры и модели онлайн-обучения, почти все основаны на операциях свертки.. следовательно,Эти методы могут хорошо моделировать только локальные отношения содержимого изображения, но ограничены захватом долгосрочных глобальных взаимодействий. Такие недостатки могут снизить способность модели обрабатывать сценарии, в которых глобальная контекстная информация важна для определения местоположения целевого объекта, например объекты, которые претерпевают крупномасштабные изменения или часто появляются и исчезают из поля зрения..
И пространственная, и временная информация важны для отслеживания целей. Первый содержит информацию о внешнем виде объекта для локализации объекта, а второй содержит изменения состояния объектов в разных кадрах. Предыдущие сиамские трекеры использовали только пространственную информацию для отслеживания, в то время как онлайн-методы используют исторические прогнозы для обновления модели. Хотя эти подходы успешны, они явно не моделируют отношения между пространством и временем.
Contribution
Вдохновленный недавним преобразователем обнаружения (DETR), в этой статье предлагается новая сквозная структура отслеживания, в которой используется преобразователь кодер-декодер для повышения производительности традиционных сверточных моделей.
Новая архитектура состоит из трех ключевых компонентов: кодера, декодера и прогнозирующей головки.
1. Кодер принимает ввод исходного целевого объекта, текущего изображения и динамически обновляемого шаблона. Модуль самоконтроля в кодировщике изучает взаимосвязь между входными данными через зависимости функций входных данных. Поскольку изображение шаблона обновляется на протяжении всей видеопоследовательности, кодер может захватывать пространственную и временную информацию о цели.
2. Декодер изучает встроенный запрос, чтобы предсказать пространственное положение целевого объекта.
3. Используйте головку предсказания на основе углов, чтобы оценить ограничивающую рамку целевого объекта в текущем кадре. В то же время заголовок партитуры изучается для управления обновлением изображений динамических шаблонов.
Всего в этой работе три вклада.
1. Мы предлагаем новую архитектуру преобразователя, предназначенную для визуального отслеживания. Он способен фиксировать глобальные зависимости характеристик пространственной и временной информации в видеопоследовательностях.Предлагает использование динамически обновляемых шаблонов.
2. Весь метод является сквозным и не требует шагов постобработки, таких как косинусные окна, сглаживание ограничительной рамки и т. д., что значительно упрощает существующий конвейер трассировки.
3. Предлагаемый трекер достигает производительности SOTA в пяти сложных краткосрочных и долгосрочных тестах, работая со скоростью в реальном времени.
Methods
В статье предлагается сеть пространственно-временного преобразователя для визуального отслеживания, называемая STARK. Документ основан на простом базовом методе, который напрямую применяет исходный преобразователь кодека для отслеживания и учитывает только пространственную информацию.Документ расширяет базовую линию для изучения пространственных и временных представлений для локализации объектов, вводя динамический шаблон и контроллер обновления для регистрации изменений внешнего вида целевых объектов.
Базовый метод
На рис. 2 показан базовый метод.
Базовая линия в основном состоит из трех частей: позвоночника свертки, Codec Converter и головки предсказания ограничивающей коробки.
Исходное изображение сначала расщепляется и утончается магистралью CNN.После FLATTEN и CONCATENATE вектор добавляется к синусоидальному положению, которое используется в качестве входа Transformer. Произвольная инициализация вектора запроса, декодер использует целевой запрос и последовательность расширенных функций от кодировщика в качестве входных данных. В отличие от DETR, используются 100 объектных запросов, и документ вводит только запрос для предсказания границ целевого объекта. Кроме того, поскольку имеется только одно предсказание, в документе удаляется венгерский алгоритм, используемый для предсказания ассоциированных связанных в DETR. Целевые запросы могут фокусироваться на всех позициях и функциях области поиска в шаблоне, таким образом изучая надежное представление окончательного предсказания ограничительной рамки.
DETR использует трехслойный персептрон для прогнозирования координат цели. Однако, как указал GFLoss, прямая регрессия координат эквивалентна подгонке инкрементного распределения Дирака, которое не принимает во внимание неоднозначности и неопределенности в наборе данных. Это представление негибкое и недостаточно надежное для таких проблем, как окклюзия и загроможденный фон при отслеживании объектов.
Чтобы улучшить качество оценки блока, разработан новый прогнозирующий заголовок, оценивающий распределение вероятностей углов блока. Как показано на рис. 3, признаки области поиска сначала извлекаются из выходной последовательности кодера, а затем вычисляется сходство между признаками области поиска и встраиванием выходных данных декодера. Наконец, последовательность признаков будет преобразована в 3 измерения, и две карты вероятностей будут выведены через полностью сверточную сеть L-слоя Conv-BN-ReLU, Одна карта вероятностей - это координаты верхнего левого угла ограничивающей рамки, а другая карта вероятностей — это координаты нижнего правого угла ограничивающей рамки.Как и DETR, я не буду здесь вдаваться в подробности.
Метод этой статьи
Структура пространственно-временного отслеживания, предложенная в этой статье. Розовый цвет подчеркивает отличие от чистой космической архитектуры.
В отличие от базового метода, который использует только первый и текущий кадр,Пространственно-временной подход вводит динамически обновляемые шаблоны, взятые из промежуточных кадров, в качестве дополнительных входных данных (единственный вклад статьи)., как показано на рисунке. В дополнение к пространственной информации исходного шаблона динамический шаблон также может фиксировать изменение внешнего вида цели с течением времени, предоставляя дополнительную временную информацию. Карты признаков троек выравниваются и объединяются, а затем отправляются в кодировщик. Этот кодировщик извлекает различимые пространственно-временные характеристики, моделируя глобальную взаимосвязь между всеми элементами как в пространственном, так и во временном измерениях.
Во время отслеживания бывают ситуации, в которых динамические шаблоны не следует обновлять. Например, обрезанные шаблоны ненадежны, когда цель полностью закрыта или перемещена из поля зрения, или когда трекер дрейфует. Для простоты в документе считается, что динамический шаблон может обновляться до тех пор, пока область поиска содержит цель. Чтобы автоматически определить, является ли текущее состояние надежным, в документе добавлена простая головка прогнозирования оценки, которая представляет собой трехслойный персептрон, за которым следует сигмовидная активация. Если оценка выше порога τ, текущее состояние считается достоверным.
обучение и вывод
Как указано в недавней работе, совместное изучение локализации и классификации может привести к неоптимальным решениям для этих двух задач, что помогает разделить локализацию и классификацию. Таким образом, в статье процесс обучения разделен на два этапа: локализация в качестве основной задачи и классификация в качестве второстепенной задачи.
В частности, на первом этапе вся сеть обучается сквозным образом, за исключением частичной головки, с использованием только потерь, связанных с локализацией. На этом этапе убедитесь, что все поисковые изображения содержат целевой объект, и дайте модели изучить возможность локализации. На втором этапе оптимизируется только счетная головка с двоичной кросс-энтропийной потерей, определяемой как
И заморозьте все остальные параметры, чтобы не повлиять на возможность локализации. Таким образом, окончательная модель изучает как способность локализации, так и способность классификации после двух этапов обучения.
Во время логического вывода в первом кадре инициализируются два шаблона и соответствующие признаки. Затем область поиска обрезается и передается в сеть для создания ограничивающей рамки и показателя достоверности. Динамический шаблон обновляется только тогда, когда достигается интервал обновления и показатель достоверности превышает пороговое значение τ. Для повышения эффективности в документе интервал обновления устанавливается равным кадрам Tu. Новый шаблон вырезается из исходного изображения и загружается в основу для извлечения признаков.
Conclusion
По сравнению с предыдущими долгосрочными трекерами структура предлагаемого метода намного проще. В частности, предыдущие методы обычно состоят из нескольких компонентов, таких как базовый трекер, модуль проверки объектов и глобальный детектор. Напротив, предлагаемый метод имеет только одну сеть, которая изучается сквозным образом. Обширные эксперименты показывают, что предлагаемый метод устанавливает новую производительность SOTA как в краткосрочных, так и в долгосрочных контрольных показателях отслеживания.
Например,Пространственно-временной трансформаторный трекер опережает Siam R-CNN на 3,9% (оценка AO) и 2,3% (успех) на GOT-10K и LaSOT соответственно. Кроме того, трекер бумаги может работать в режиме реального времени и в 6 раз быстрее, чем Siam R-CNN (30V.S.5fps) на графическом процессоре Tesla V100., как показано на рисунке
Сравнение с СОТА на Ласоте. Производительность УСПЕХ сравнивается со скоростью отслеживания кадров в секунду (FPS).
Сравнение с другими методами SOTA на нескольких наборах данных
Скорость, вычисления и параметры
Добро пожаловать в публичный аккаунтТехническое руководство по резюме, уделяя особое внимание техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.
Другие статьи
Научное письмо и философия статей
Краткое изложение традиционных методов извлечения признаков в компьютерном зрении
ICCV2021 | TOOD: одноэтапное обнаружение объектов, ориентированное на задачу
CVPR2020 | D3S: различительное средство отслеживания сегментации одиночного выстрела
Краткое изложение общих приемов в потоке данных Pytorch
Резюме инновационных идей модели трансформатора в компьютерном зрении
PNNX: формат обмена нейронной сетью PyTorch
Опыт работы и восприятие алгоритма CV от года
Резюме | Классические наборы данных с открытым исходным кодом в стране и за рубежом | Функция Softmax и ее недоразумения
Введение в TorchShard | Введение в Pytorch Lightning Flash
Совместное использование ресурсов | Ускорьте написание эссе с FiftyOne
ICCV2021 Преобразователь технического зрения с прогрессивной выборкой
MobileVIT: легкий визуальный трансформер + мобильное развертывание
ICCV2021 | SOTR: Сегментация объектов с помощью преобразователей
ICCV2021 | PnP-DETR: эффективный визуальный анализ с помощью трансформаторов
ICCV2021 | Отражение и улучшение кодирования относительного положения в Vision Transformer
ICCV2021 | MicroNet: Улучшение распознавания изображений с очень низкими значениями FLOP
ICCV2021 | Переосмысление пространственного измерения визуальных трансформеров
CVPR2021 | TransCenter: Преобразователи для алгоритмов многообъектного отслеживания
CVPR2021 | Обнаружение объектов в открытом мире
CVPR2021 | TimeSformer — пространственно-временная модель внимания для понимания видео
CVPR2021 | Transformer для сквозной сегментации экземпляров видео
2021 - Обзор многообъектного отслеживания в видеонаблюдении
Всестороннее понимание Anchor в обнаружении целей | Резюме сегментации экземпляра Резюме Полное издание
Обзор одноэтапной сегментации экземпляров | Обзор оценки позы | Обзор семантической сегментации
Резюме функции потерь регрессии при обнаружении цели | Краткое изложение распространенных методов обнаружения малых целей
Краткое изложение методов сжатия сверточной нейронной сети
Разница между обнаружением видеообъекта и обнаружением объекта изображения