Предисловие:
Сегментация экземпляров видео (VIS) — это задача, требующая одновременной классификации, сегментации и отслеживания интересующих объектов в видео. В этой статье предлагается новая структура сегментации экземпляров видео на основе Transformers VisTR, которая рассматривает задачу VIS как простую сквозную задачу декодирования/предсказания параллельной последовательности.
Получив на вход видеосегмент, состоящий из нескольких кадров изображения, VisTR напрямую выводит последовательность масок для каждого экземпляра в видео. Его ядром является новая и эффективная стратегия сопоставления последовательностей экземпляров и сегментации, которая выполняет общий мониторинг и сегментацию экземпляров на уровне последовательностей. VisTR классифицирует и отслеживает экземпляры с точки зрения изучения подобия, что значительно упрощает весь процесс, который сильно отличается от существующих методов.
VisTR является самой быстрой среди существующих моделей VIS, а наилучшей производительностью обладает метод, использующий одну модель в наборе данных YouTubeVIS. Это первый раз, когда исследователи продемонстрировали более простую и быструю платформу на основе Transformer для сегментации экземпляров видео, достигнув конкурентоспособной точности.
Обратите внимание на технические статьи о компьютерном зрении.
Точка отправления
Методы SOTA обычно разрабатывают сложные конвейеры для решения этой задачи. Нисходящие методы следуют парадигме отслеживания путем обнаружения и в значительной степени полагаются на модели сегментации экземпляров на уровне изображения и сложные правила, разработанные человеком, для связывания экземпляров. Методы «снизу вверх» разделяют экземпляры объектов путем кластеризации изученных вложений пикселей. Из-за того, что они сильно зависят от качества плотного прогнозирования, эти методы обычно требуют нескольких шагов для итеративного создания масок, что делает их медленными. Поэтому крайне желательно иметь простую, сквозную обучаемую структуру ВИС.
Здесь мы более подробно рассмотрим задачу сегментации экземпляра видео. Видеокадры содержат более подробную информацию, чем одно изображение, например шаблоны движения и временную согласованность экземпляров, предоставляя полезные подсказки для сегментации и классификации экземпляров. В то же время лучшее изучение функций экземпляров может помочь отслеживать экземпляры. По сути, и сегментация экземпляров, и отслеживание экземпляров связаны с изучением сходства: сегментация экземпляров предназначена для изучения сходства на уровне пикселей, а отслеживание экземпляров — для изучения сходства между экземплярами. Поэтому естественно решать эти две подзадачи в едином фреймворке и получать пользу друг от друга. Здесь мы стремимся разработать такую комплексную структуру ВИС. Фреймворк должен быть простым и обеспечивать высокую производительность без наворотов.
основной вклад
-
Мы предлагаем новую платформу Transformers для сегментации экземпляров видео, называемую VisTR, которая рассматривает задачу VIS как простую сквозную задачу декодирования/предсказания параллельной последовательности. Эта структура сильно отличается от существующих методов и значительно упрощает весь процесс.
-
VisTR обращается к VIS с новой точки зрения обучения по сходству. Сегментация экземпляров предназначена для изучения сходства на уровне пикселей, а отслеживание экземпляров — для изучения сходства между экземплярами. Таким образом, отслеживание экземпляров осуществляется легко и естественно в той же структуре сегментации экземпляров.
-
Ключом к успеху VisTR является новая стратегия сопоставления последовательностей экземпляров и сегментации, адаптированная для нашей платформы. Эта хорошо продуманная стратегия позволяет нам контролировать и сегментировать экземпляры в целом на уровне последовательности.
-
VisTR показывает хорошие результаты на наборе данных YouTube-VIS, достигая mAP маски 38,6% при 57,7 FPS, что является лучшим и самым быстрым среди методов, использующих одну модель.
Methods
Вся архитектура VisTR показана на рисунке 2. Он состоит из четырех основных компонентов: магистрали CNN для извлечения компактных представлений признаков нескольких кадров, преобразователя кодировщика-декодера для моделирования сходства признаков на уровне пикселей и на уровне экземпляра, экземпляра для модуля сопоставления последовательностей для контролируемых моделей и экземпляра. модуль сегментации последовательности.
Transformer Encoder
Кодер Transformer используется для моделирования сходства между всеми элементами на уровне пикселей в сегменте. Сначала к приведенной выше карте объектов применяется свертка 1 × 1, чтобы уменьшить размерность с C до d (d
Чтобы сформировать последовательность функций уровня клипа, которые можно передать в кодировщик Transformer, мы объединяем пространственные и временные измерения f1 в одно измерение, в результате чего получается карта 2D-объектов размером d × (TH W). Обратите внимание, что хронологический порядок всегда соответствует порядку исходного ввода. Каждый уровень кодировщика имеет стандартную архитектуру, состоящую из модуля самоконтроля с несколькими головками и полностью подключенной сети прямой связи (FFN).
Transformer Decoder
Декодер Transformer предназначен для декодирования функций верхнего пикселя, которые могут представлять каждый экземпляр кадра, называемых функциями уровня экземпляра. Вдохновленные DETR, мы также вводим фиксированное количество входных вложений для запроса функций экземпляра из функций пикселей, называемых запросом экземпляра.
Предполагая, что модель декодирует n экземпляров на кадр, тогда для T кадров число запросов экземпляров равно N = n · T. Запросы экземпляров изучаются моделью и имеют ту же размерность, что и пиксельные объекты. Принимая выходные данные кодера E и N экземплярных запросов Q в качестве входных данных, декодер Transformer выводит N экземплярных признаков, обозначенных буквой O на рисунке 2.
Общее предсказание соответствует порядку входных кадров, и порядок предсказания экземпляров для разных изображений одинаков. Следовательно, отслеживание экземпляров в разных кадрах может быть достигнуто путем прямой связи соответствующих индексированных элементов.
Instance Sequence Matching
Фиксированное количество последовательностей прогнозирования, выдаваемых декодером, не соответствует порядку, и каждый кадр содержит n экземплярных последовательностей. Этот документ такой же, как DETR, с использованием венгерского алгоритма сопоставления.
Несмотря на то, что это сегментация экземпляра, при обнаружении цели необходимо использовать ограничительную рамку, чтобы облегчить комбинированные оптимизационные вычисления. Нормализованный центр ограничивающей рамки, ширина и высота вычисляются с помощью FFN, то есть полностью связаны.
Рассчитайте метку ограничивающей рамки с помощью softmax. Наконец, получаются ограничивающие прямоугольники n×T. Используйте приведенное выше, чтобы получить распределение вероятности метки и ограничивающую рамку, чтобы они соответствовали последовательности экземпляров и истине gournd.
Наконец, потери венгерского алгоритма рассчитываются с учетом распределения вероятностей метки и положения ограничивающей рамки. Потери в основном соответствуют структуре DETR, используя потери L1 и потери IOU. Следующая формула представляет собой потери при обучении. Он состоит из потери метки, ограничивающей рамки и последовательности экземпляров.
Conclusion
На рисунке ниже показана визуализация VisTR в наборе данных проверки YouTube VIS. Каждая строка содержит изображения, взятые из одного и того же видео. VisTR может хорошо отслеживать и сегментировать сложные экземпляры, такие как: (а) перекрывающиеся экземпляры, (б) изменения относительного положения между экземплярами, © путаница, вызванная похожими экземплярами одного и того же типа, и (г) экземпляры с разными позами.
Бумага: коннентное сегментация экземпляра видео с трансформаторами
Получение: ответьте на ключевое слово «0005» на фоне технического руководства CV, чтобы получить документ.
Код:git.io/VisTR
Эта статья взята из серии публикаций в Техническом руководстве CV для общедоступных аккаунтов.
Добро пожаловать в техническое руководство CV для общедоступной учетной записи, в котором основное внимание уделяется техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.
Ответьте на ключевое слово «техническое резюме» в официальном аккаунте, чтобы получить резюме в формате pdf оригинального технического резюме официального аккаунта.
Другие статьи
Самостоятельное внимание в компьютерном зрении
Классическая серия статей — Капсульные сети: новая сеть глубокого обучения
Обзорная колонка | Обзор оценки позы
Почему GEMM лежит в основе глубокого обучения
Почему 8 бит достаточно для использования глубоких нейронных сетей?
Как просмотреть пузырь искусственного интеллекта
Четкое обнаружение границ с использованием Dice loss
PVT — многофункциональная основа для плотного прогнозирования без свертки
CVPR2021 | Обнаружение объектов в открытом мире
Визуальное обнаружение и распознавание объектов Прошлое, настоящее и возможное
Краткое изложение методов недообучения и переобучения
Краткое изложение общих идей бумажных инноваций
Резюме методов эффективного чтения англоязычной литературы по направлению CV
Обзор непродолжительного обучения компьютерному зрению
Краткий обзор дистилляции знаний
Оптимизировать скорость чтения видео OpenCV
Краткое изложение методов функции потерь
Техническое резюме механизма внимания
Краткое изложение технологии пирамиды функций
Краткое изложение технологии объединения
Краткое изложение методов увеличения данных
Резюме эволюции структуры CNN (1) Классическая модель
Резюме эволюции структуры CNN (2) Облегченная модель
Резюме эволюции структуры CNN (3) Принципы проектирования
Как увидеть будущее направление компьютерного зрения
Краткое изложение технологии визуализации CNN (1) Визуализация карты характеристик
Краткое описание технологии визуализации CNN (2) Визуализация ядра свертки
Краткое изложение технологии визуализации CNN (три) визуализации
Краткое описание технологии визуализации CNN (4) инструменты и проекты визуализации