ICCV2021 | SOTR: Сегментация объектов с помощью преобразователей

глубокое обучение компьютерное зрение

предисловие

В этой статье представлены некоторые дефекты существующих методов сегментации экземпляров и сложность использования преобразователей для сегментации экземпляров, а также предлагается высококачественная модель сегментации экземпляров SOTR на основе преобразователей.

Эксперименты показывают, что SOTR не только обеспечивает новую основу для сегментации экземпляров, но и превосходит метод сегментации экземпляров SOTA в наборе данных MS Coco.

Эта статья взята из технического руководства по публичному аккаунту CV.Серия обмена бумагой

Обратите внимание на техническое руководство по общедоступной учетной записи CV, уделив особое внимание техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.

图片

Бумага: SOTR: сегментация объектов с помощью преобразователей

Код:GitHub.com/east on-CA U/…

Background

Современные методы сегментации экземпляров обычно строятся на CNN и следуютпарадигма обнаружения перед сегментацией, который состоит из детектора для идентификации и локализации всех объектов и ветви маски для генерации масок сегментации. Успех этой идеи сегментации объясняется следующими преимуществами, а именно эквивалентностью перевода и местоположением, но она сталкивается со следующими препятствиями: 1) из-за ограниченного рецептивного поля CNN относительно не хватает согласованности признаков в высокоуровневой визуальной семантической информации для сопоставления экземпляра. , что приводит к неоптимальным результатам сегментации на больших объектах **2) Качество сегментации и скорость логического вывода сильно зависят от целевого детектора, а в сложных сценах производительность низкая..

Чтобы преодолеть эти недостатки, многие недавние исследования, как правило, отходят от обнаружения перед сегментацией и переходят к восходящим стратегиям, которые изучают особенности встраивания и экземпляра каждого пикселя, а затем используют методы постобработки для их классификации в соответствии с функции встраивания.Последовательные группировки являются экземплярами. Следовательно, эти методы могут хорошо сохранять информацию о местоположении и локальной когерентности. Тем не мение,Самый большой недостаток моделей «снизу вверх» заключается в том, что кластеризация нестабильна (например, фрагментированные и совместные маски), а способность к обобщению наборов данных различных сценариев плохая..

Кроме того, преобразователи могут легко фиксировать глобальные функции и естественным образом моделировать долгосрочные семантические зависимости. В частности, само-внимание является ключевым механизмом преобразователя, который в широком смысле собирает информацию об особенностях и местоположении из всего входного домена. Следовательно, модели на основе преобразователя могут лучше различать перекрывающиеся экземпляры с одной и той же семантической категорией, что делает их более подходящими, чем CNN, для задач видения высокого уровня.

Однако эти трансформаторные методы все же имеют недостатки. с одной стороны,Преобразователи плохо извлекают признаки низкого уровня, что приводит к неправильным прогнозам для небольших объектов.. с другой стороны,Из-за обширного характера карты признаков она требует много памяти и времени, особенно на этапе обучения..

Contributions

Чтобы преодолеть эти недостатки, в статье предлагается инновационная восходящая модель SOTR, которая умело сочетает в себе преимущества CNN и трансформатора.

В центре внимания SOTR находится изучение того, как лучше использовать семантическую информацию, извлекаемую преобразователем. Чтобы уменьшить объем хранения и вычислительную сложность традиционного механизма внутреннего внимания, в статье предлагается двойное внимание, которое принимает разреженное представление традиционной матрицы внимания.

1.В документе предлагается инновационная структура сегментации экземпляров CNN-Transformer-hybrid, называемая SOTR.. Он может эффективно моделировать локальные соединения и долгосрочные зависимости, используя магистраль CNN и кодировщик преобразователя во входной области, что делает их очень выразительными. Что еще более важно, SOTR значительно упрощает весь конвейер, напрямую сегментируя экземпляры объектов, не полагаясь на обнаружение блоков.

2. ** Дизайн двойного внимания, который представляет собой новый механизм внутреннего внимания, чувствительный к положению, ** специально разработан для трансформаторов. По сравнению с оригинальным трансформатором,Эта хорошо продуманная структура SOTR обеспечивает значительную экономию вычислений и памяти, особенно для больших входных данных с плотными прогнозами, такими как сегментация экземпляров..

3. Помимо чисто трансформаторных моделей, предлагаемыеSOTR хорошо обобщает индуктивное смещение, не требуя предварительного обучения на больших наборах данных.. следовательно,SOTR легче применять, когда объем данных недостаточен.

4. В тесте MS Coco производительность SOTR достигает 40,2% производительности точки доступа с использованием магистрали ResNet-101-FPN, превосходя по точности большинство современных методов. Кроме того, SOTR показывает значительно лучшую производительность на объектах среднего размера (59,0%) и крупных объектах (73,0%) благодаря извлечению глобальной информации двойным преобразователем.

Methods

SOTR — это гибридная модель сегментации экземпляров CNN-Transformer, которая одновременно изучает 2D-представления и легко собирает информацию на большом расстоянии. Он следует парадигме прямой сегментации, сначала разделяя входную карту объектов на участки, а затем прогнозируя класс каждого участка при динамической сегментации каждого экземпляра.

В частности, модель в основном состоит из трех частей: 1) магистральный модуль для извлечения признаков изображения из входных изображений, особенно признаков низкого уровня и локальных признаков; 2) преобразователь для моделирования глобальных и семантических зависимостей; 3) многоуровневый апсемплинг. модуль, который используется для выполнения операции динамической свертки на сгенерированной карте объектов с соответствующим ядром свертки для создания окончательной маски сегментации.

图片

SOTR построен на простой магистрали FPN с минимальными изменениями. Модель сглаживает функции FPN P2-P6 и дополняет их позиционными вложениями перед подачей их в преобразователь. Две головки добавляются после преобразователя для прогнозирования классов экземпляров и генерации ядер динамической свертки. Модуль многоступенчатой ​​повышающей дискретизации принимает функции P2-P4 в FPN и функцию P5 в преобразователе в качестве входных данных и генерирует окончательный прогноз с использованием операции динамической свертки, показанной в красной рамке на рисунке.

Twin attention

Вычислительная стоимость самостоятельного внимания квадратична по времени и памяти, что приведет к более высокой вычислительной стоимости для многомерных последовательностей, таких как изображения, и затруднит масштабируемость модели в различных средах. Чтобы решить эту проблему, в статье предлагается механизм двойного внимания, который упрощает матрицу внимания до разреженного представления.

图片

Стратегия в основном состоит в том, чтобы ограничить рецептивное поле разработанным блочным паттерном фиксированного шага. Сначала он вычисляет внимание в каждом столбце, сохраняя при этом элементы в разных столбцах независимыми. Эта стратегия может агрегировать контекстную информацию между элементами в горизонтальном масштабе (как показано на рисунке (1)). Затем аналогичное внимание выполняется в каждой строке, чтобы полностью использовать взаимодействие функций в вертикальном диапазоне (как показано на рисунке (2)). Внимание в этих двух шкалах, в свою очередь, связано, чтобы стать последним, имеющим глобальное рецептивное поле, охватывающее информацию в обоих измерениях.

Учитывая, что карта признаков Fi FPN имеет размер H×W×C (i-й слой FPN), SOTR сначала делит карту признаков Fi на N∗N участков, где Pi равно N×N×C, а затем по вертикальном и горизонтальном направлениях Сложите их в фиксированные блоки. Позиционные вложения добавляются в блок для сохранения позиционной информации, т. е. пространства позиционных вложений для столбцов и строк равны 1∗N∗C и N∗1∗C. Оба уровня внимания используют механизм внимания с несколькими головками. Чтобы облегчить многоуровневые соединения и постобработку, все подуровни в двойном внимании производят выходные данные N×N×C.

Механизм двойного внимания может эффективно уменьшить память и вычислительную сложность с O((H×W)^2) до (H×W^2+W×H^2).

Transformer layer

Три различных слоя преобразователя, основанные на энкодере, служат базовыми строительными блоками (как показано на рисунке ниже). Исходный слой преобразователя подобен кодеру, используемому в НЛП (рисунок (а)), который состоит из двух частей: 1) многоуровневый механизм внутреннего внимания после нормализации слоя; 2) многослойное восприятие после нормализации слоя. Кроме того, остаточные соединения используются для соединения двух частей. Наконец, многомерные признаки последовательности могут быть получены как результат соединений серии K этих слоев преобразователя для последующего прогнозирования в различных заголовках признаков.

图片

Чтобы достичь наилучшего компромисса между вычислительными затратами и производительностью извлечения признаков, авторы следуют оригинальной конструкции слоя преобразователя, заменяя внимание с несколькими головками только двойным вниманием в слое чистого двойного преобразователя (рис. (b)).

Для дальнейшего улучшения характеристик двойного трансформатора также разработан слой гибридного двойного трансформатора, как показано на рисунке 3(C). Он добавляет два сверточных слоя 3 × 3 на каждый сиамский модуль внимания, соединенных слоем Leaky RELU. Путем введения операций свертки можно выгодно дополнить механизм внимания, чтобы лучше собирать локальную информацию и улучшать представление признаков.

Functional head

Карты признаков из модуля трансформатора вводятся в различные функциональные головки для последующего прогнозирования. Заголовок класса включает в себя однослойный линейный слой для вывода результатов классификации N×N×M, где M — количество классов.

Поскольку каждый патч присваивает категорию только одному объекту, центр которого находится в патче, таком как YOLO, в документе используется многоуровневое прогнозирование и совместное использование головок на разных уровнях функций для дальнейшего повышения производительности и эффективности модели для объектов разных масштабов.

Заголовок ядра также состоит из линейных слоев, параллельных заголовку класса, для вывода тензора N×N×D для последующего создания маски, где тензор представляет ядро ​​свертки N×N с параметрами D.

Во время обучения для классификации применяется очаговая потеря, и все наблюдения за этими ядрами свертки исходят из окончательной потери маски.

Mask

Чтобы построить представления объектов маски для сегментации с учетом экземпляра и местоположения, простой подход состоит в том, чтобы делать прогнозы для каждой карты объектов в разных масштабах. Однако это увеличивает время и ресурсы. Вдохновленный Panoptic FPN, в документе разработан многоуровневый модуль повышающей дискретизации, объединяющий функции каждого слоя FPN и преобразователя в унифицированную функцию маски.

Во-первых, карта признаков P5 с относительно низким разрешением с информацией о местоположении получается из преобразователя и объединяется с P2-P4 в FPN для слияния. Для карты признаков каждой шкалы операция выполняется в несколько этапов 3×3Conv, Group Norm и ReLU. Затем P3-P5 выполняют билинейную повышающую дискретизацию в 2×, 4× и 8× для разрешения (H/4, W/4) соответственно. Наконец, после обработанного суммирования P2-P5 выполняются точечная свертка и повышение дискретизации для создания окончательной унифицированной карты признаков H × W.

Например, при прогнозировании маски SOTR генерирует маски для каждого патча, выполняя операцию динамической свертки на унифицированной карте объектов, описанной выше. Учитывая предсказанное ядро ​​свертки K(N×N×d) из заголовка ядра, каждое ядро ​​отвечает за генерацию маски для экземпляров в соответствующем патче. Конкретные операции заключаются в следующем:

图片

где ∗ представляет собой операцию свертки, а Z — окончательная сгенерированная маска. Следует отметить, что значение D зависит от формы ядра свертки, то есть D=λ^2C, где λ — размер ядра. Маски сегментации конечного экземпляра могут быть созданы Matrix NMS, и каждая маска независимо контролируется Dice Loss.

Conclusion

1. Сравнение оригинального трансформатора, чистого двойного трансформатора и гибридного двойного трансформатора.

图片

Как показано в приведенной выше таблице, предлагаемые чисто гибридные сдвоенные трансформаторы значительно превосходят исходные трансформаторы по всем показателям, что означает, что архитектура сдвоенных трансформаторов не только успешно фиксирует дальние зависимости как по вертикали, так и по горизонтали, но и является более подходящей. для координации с магистралью CNN в сочетании с изучением функций и представлений изображений.

Для чистого трансформатора и двойного трансформатора последний работает намного лучше. В документе предполагается, что это связано с тем, что 3∗3Conv может извлекать локальную информацию и улучшать представление функций, тем самым повышая рациональность двойных преобразователей.

2. Визуализация масок

图片

3. Подробное сравнение с другими методами

图片

SOTR превосходит Mask R-CNN и BlendMask в двух случаях:

1) Объекты сложной формы, которые легко пропускаются другими моделями (например, морковь перед поездом, лежащие слоны, водители в маленьком вагоне), не могут быть обнаружены как положительные экземпляры Mask R-CNN и BlendMask.

2) Объекты, которые накладываются друг на друга (например, человек перед поездом), не могут разделить их точной границей. SOTR может предсказывать маски с более четкими границами, в то время как SOLOv2 имеет тенденцию сегментировать объекты на отдельные части (например, поезда на голову и тело), ​​иногда не в состоянии исключить фон из изображений. Благодаря внедрению преобразователя SOTR может лучше получать исчерпывающую глобальную информацию и избегать такого разбиения на объекты.

Кроме того, SOLOv2 имеет более высокий уровень ложных срабатываний по сравнению с SOTR, поскольку в качестве экземпляров указываются несуществующие объекты.

图片

4. Сравнение в реальном времени

图片

Читать связанные статьи

Обзор одноэтапной сегментации экземпляров | Обзор семантической сегментации

Резюме сегментации экземпляра Резюме Полное издание

CVPR2021 | SETR: переосмысление семантической сегментации с точки зрения от последовательности к последовательности с использованием преобразователей

CVPR2021 | Transformer для сквозной сегментации экземпляров видео

Добро пожаловать в техническое руководство CV для общедоступной учетной записи, в котором основное внимание уделяется техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.

Другие статьи

ML2021 | PatrickStar: параллельное обучение предварительно обученных моделей с управлением памятью на основе блоков

ICCV2021 | PnP-DETR: эффективный визуальный анализ с помощью трансформаторов

ICCV2021 | Можно ли использовать преобразователи в области неестественных изображений небольших наборов данных, таких как медицинские изображения?

ICCV2021 | Отражение и улучшение кодирования относительного положения в Vision Transformer

ICCV2021 | TransFER: обучение представлениям выражений лица с учетом отношений с использованием трансформеров

2021 - Обзор многообъектного отслеживания в видеонаблюдении

Понимание алгоритмов обнаружения объектов с единой точки зрения: анализ и сводка последних достижений

Всестороннее понимание якорей в обнаружении целей | Обзор оценки позы

Резюме функции потерь регрессии при обнаружении цели | Краткое изложение распространенных методов обнаружения малых целей

Обзор визуального преобразователя | Обзор последних исследований по обнаружению малоразмерных целей в 2021 году

Обзор сиамской сети | Некоторые проблемы, идеи и решения обнаружения малоразмерных целей

Обзор понимания видео: распознавание действий, расположение последовательности действий, встраивание видео

Состояние компьютерного зрения из докладов CVPR 2021

ICCV2021 | MicroNet: Улучшение распознавания изображений с очень низкими значениями FLOP

ICCV2021 | Переосмысление пространственного измерения визуальных трансформеров

CVPR2021 | TransCenter: Преобразователи для алгоритмов многообъектного отслеживания

CVPR2021 | Обнаружение объектов в открытом мире

CVPR2021 | TimeSformer — пространственно-временная модель внимания для понимания видео

CVPR2021 | Эффективный модуль внимания сегментации пирамиды PSA

CVPR2021 | Новый способ функциональной пирамиды YOLOF

Серия Classic Paper | Переосмысление предварительного обучения в ImageNet

Классическая серия статей | Дефекты групповой нормализации и BN

Классическая серия документов | Обнаружение целей - дефекты CornerNet и анкерных ящиков

Классическая серия статей | Подходы к преодолению разрыва между обнаружением на основе привязки и обнаружением без привязки: выбор адаптивного обучающего образца