CVPR2021 | Transformer для сквозной сегментации экземпляров видео

искусственный интеллект компьютерное зрение

Предисловие:

Сегментация экземпляров видео (VIS) — это задача, требующая одновременной классификации, сегментации и отслеживания интересующих объектов в видео. В этой статье предлагается новая структура сегментации экземпляров видео на основе Transformers VisTR, которая рассматривает задачу VIS как простую сквозную задачу декодирования/предсказания параллельной последовательности.

Получив на вход видеосегмент, состоящий из нескольких кадров изображения, VisTR напрямую выводит последовательность масок для каждого экземпляра в видео. Его ядром является новая и эффективная стратегия сопоставления последовательностей экземпляров и сегментации, которая выполняет общий мониторинг и сегментацию экземпляров на уровне последовательностей. VisTR классифицирует и отслеживает экземпляры с точки зрения изучения подобия, что значительно упрощает весь процесс, который сильно отличается от существующих методов.

VisTR является самой быстрой среди существующих моделей VIS, а наилучшей производительностью обладает метод, использующий одну модель в наборе данных YouTubeVIS. Это первый раз, когда исследователи продемонстрировали более простую и быструю платформу на основе Transformer для сегментации экземпляров видео, достигнув конкурентоспособной точности.

Обратите внимание на технические статьи о компьютерном зрении.

Точка отправления

Методы SOTA обычно разрабатывают сложные конвейеры для решения этой задачи. Нисходящие методы следуют парадигме отслеживания путем обнаружения и в значительной степени полагаются на модели сегментации экземпляров на уровне изображения и сложные правила, разработанные человеком, для связывания экземпляров. Методы «снизу вверх» разделяют экземпляры объектов путем кластеризации изученных вложений пикселей. Из-за того, что они сильно зависят от качества плотного прогнозирования, эти методы обычно требуют нескольких шагов для итеративного создания масок, что делает их медленными. Поэтому крайне желательно иметь простую, сквозную обучаемую структуру ВИС.

Здесь мы более подробно рассмотрим задачу сегментации экземпляра видео. Видеокадры содержат более подробную информацию, чем одно изображение, например шаблоны движения и временную согласованность экземпляров, предоставляя полезные подсказки для сегментации и классификации экземпляров. В то же время лучшее изучение функций экземпляров может помочь отслеживать экземпляры. По сути, и сегментация экземпляров, и отслеживание экземпляров связаны с изучением сходства: сегментация экземпляров предназначена для изучения сходства на уровне пикселей, а отслеживание экземпляров — для изучения сходства между экземплярами. Поэтому естественно решать эти две подзадачи в едином фреймворке и получать пользу друг от друга. Здесь мы стремимся разработать такую ​​комплексную структуру ВИС. Фреймворк должен быть простым и обеспечивать высокую производительность без наворотов.

основной вклад

  1. Мы предлагаем новую платформу Transformers для сегментации экземпляров видео, называемую VisTR, которая рассматривает задачу VIS как простую сквозную задачу декодирования/предсказания параллельной последовательности. Эта структура сильно отличается от существующих методов и значительно упрощает весь процесс.

  2. VisTR обращается к VIS с новой точки зрения обучения по сходству. Сегментация экземпляров предназначена для изучения сходства на уровне пикселей, а отслеживание экземпляров — для изучения сходства между экземплярами. Таким образом, отслеживание экземпляров осуществляется легко и естественно в той же структуре сегментации экземпляров.

  3. Ключом к успеху VisTR является новая стратегия сопоставления последовательностей экземпляров и сегментации, адаптированная для нашей платформы. Эта хорошо продуманная стратегия позволяет нам контролировать и сегментировать экземпляры в целом на уровне последовательности.

  4. VisTR показывает хорошие результаты на наборе данных YouTube-VIS, достигая mAP маски 38,6% при 57,7 FPS, что является лучшим и самым быстрым среди методов, использующих одну модель.

Methods

图片

Вся архитектура VisTR показана на рисунке 2. Он состоит из четырех основных компонентов: магистрали CNN для извлечения компактных представлений признаков нескольких кадров, преобразователя кодировщика-декодера для моделирования сходства признаков на уровне пикселей и на уровне экземпляра, экземпляра для модуля сопоставления последовательностей для контролируемых моделей и экземпляра. модуль сегментации последовательности.

Transformer Encoder

Кодер Transformer используется для моделирования сходства между всеми элементами на уровне пикселей в сегменте. Сначала к приведенной выше карте объектов применяется свертка 1 × 1, чтобы уменьшить размерность с C до d (d

Чтобы сформировать последовательность функций уровня клипа, которые можно передать в кодировщик Transformer, мы объединяем пространственные и временные измерения f1 в одно измерение, в результате чего получается карта 2D-объектов размером d × (TH W). Обратите внимание, что хронологический порядок всегда соответствует порядку исходного ввода. Каждый уровень кодировщика имеет стандартную архитектуру, состоящую из модуля самоконтроля с несколькими головками и полностью подключенной сети прямой связи (FFN).

Transformer Decoder

Декодер Transformer предназначен для декодирования функций верхнего пикселя, которые могут представлять каждый экземпляр кадра, называемых функциями уровня экземпляра. Вдохновленные DETR, мы также вводим фиксированное количество входных вложений для запроса функций экземпляра из функций пикселей, называемых запросом экземпляра.

Предполагая, что модель декодирует n экземпляров на кадр, тогда для T кадров число запросов экземпляров равно N = n · T. Запросы экземпляров изучаются моделью и имеют ту же размерность, что и пиксельные объекты. Принимая выходные данные кодера E и N экземплярных запросов Q в качестве входных данных, декодер Transformer выводит N экземплярных признаков, обозначенных буквой O на рисунке 2.

Общее предсказание соответствует порядку входных кадров, и порядок предсказания экземпляров для разных изображений одинаков. Следовательно, отслеживание экземпляров в разных кадрах может быть достигнуто путем прямой связи соответствующих индексированных элементов.

Instance Sequence Matching

Фиксированное количество последовательностей прогнозирования, выдаваемых декодером, не соответствует порядку, и каждый кадр содержит n экземплярных последовательностей. Этот документ такой же, как DETR, с использованием венгерского алгоритма сопоставления.

Несмотря на то, что это сегментация экземпляра, при обнаружении цели необходимо использовать ограничительную рамку, чтобы облегчить комбинированные оптимизационные вычисления. Нормализованный центр ограничивающей рамки, ширина и высота вычисляются с помощью FFN, то есть полностью связаны.

Рассчитайте метку ограничивающей рамки с помощью softmax. Наконец, получаются ограничивающие прямоугольники n×T. Используйте приведенное выше, чтобы получить распределение вероятности метки и ограничивающую рамку, чтобы они соответствовали последовательности экземпляров и истине gournd.

图片

Наконец, потери венгерского алгоритма рассчитываются с учетом распределения вероятностей метки и положения ограничивающей рамки. Потери в основном соответствуют структуре DETR, используя потери L1 и потери IOU. Следующая формула представляет собой потери при обучении. Он состоит из потери метки, ограничивающей рамки и последовательности экземпляров.

图片

Conclusion

图片

На рисунке ниже показана визуализация VisTR в наборе данных проверки YouTube VIS. Каждая строка содержит изображения, взятые из одного и того же видео. VisTR может хорошо отслеживать и сегментировать сложные экземпляры, такие как: (а) перекрывающиеся экземпляры, (б) изменения относительного положения между экземплярами, © путаница, вызванная похожими экземплярами одного и того же типа, и (г) экземпляры с разными позами.

图片

Бумага: коннентное сегментация экземпляра видео с трансформаторами

Получение: ответьте на ключевое слово «0005» на фоне технического руководства CV, чтобы получить документ.

Код:git.io/VisTR

Эта статья взята из серии публикаций в Техническом руководстве CV для общедоступных аккаунтов.

Добро пожаловать в техническое руководство CV для общедоступной учетной записи, в котором основное внимание уделяется техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.

Ответьте на ключевое слово «техническое резюме» в официальном аккаунте, чтобы получить резюме в формате pdf оригинального технического резюме официального аккаунта.

Другие статьи

Самостоятельное внимание в компьютерном зрении

Классическая серия статей — Капсульные сети: новая сеть глубокого обучения

Обзорная колонка | Обзор оценки позы

Говоря об оптимизации CUDA

Почему GEMM лежит в основе глубокого обучения

Почему 8 бит достаточно для использования глубоких нейронных сетей?

Классическая серия документов | Обнаружение целей - CornerNet и также известные как дефекты якорных ящиков

Как просмотреть пузырь искусственного интеллекта

Четкое обнаружение границ с использованием Dice loss

PVT — многофункциональная основа для плотного прогнозирования без свертки

CVPR2021 | Обнаружение объектов в открытом мире

Siamese networkСводка

Визуальное обнаружение и распознавание объектов Прошлое, настоящее и возможное

Какие концепции или методы вы освоили за свою карьеру инженера-алгоритма, которые заставляют вас чувствовать, что вы выросли как на дрожжах?

Краткое изложение терминологии компьютерного зрения (1) Создание системы знаний для компьютерного зрения

Краткое изложение методов недообучения и переобучения

Резюме методов нормализации

Краткое изложение общих идей бумажных инноваций

Резюме методов эффективного чтения англоязычной литературы по направлению CV

Обзор непродолжительного обучения компьютерному зрению

Краткий обзор дистилляции знаний

Оптимизировать скорость чтения видео OpenCV

Сводка NMS

Краткое изложение методов функции потерь

Техническое резюме механизма внимания

Краткое изложение технологии пирамиды функций

Краткое изложение технологии объединения

Краткое изложение методов увеличения данных

Резюме эволюции структуры CNN (1) Классическая модель

Резюме эволюции структуры CNN (2) Облегченная модель

Резюме эволюции структуры CNN (3) Принципы проектирования

Как увидеть будущее направление компьютерного зрения

Краткое изложение технологии визуализации CNN (1) Визуализация карты характеристик

Краткое описание технологии визуализации CNN (2) Визуализация ядра свертки

Краткое изложение технологии визуализации CNN (три) визуализации

Краткое описание технологии визуализации CNN (4) инструменты и проекты визуализации