CVPR2021 | Эффективный модуль внимания сегментации пирамиды PSA

компьютерное зрение

Предисловие:

ранее поделился "Новый механизм внимания Coordinate Attention после SE и CBAM》 отправной точкой является то, что SE вводит только внимание канала, а пространственное внимание CBAM рассматривает только информацию о локальной области, таким образом предлагая механизм внимания, который учитывает глобальную пространственную информацию.

В этой статье мы представим еще один модуль внимания, основанный на той же отправной точке, а именно пирамидальное расщепление внимания (PSA). PSA легко подключается, проста и эффективна. Этот модуль объединяется с ResNet для замены свертки 3x3 в узком месте ResNet на PSA для формирования EPSANet.

EPSANet используется для распознавания изображений, что на 1,93% выше, чем у SENet top-1acc. PSA используется в Mask RCNN, обнаружение объектов на 2,7 AP выше, а сегментация экземпляров на 1,7 AP выше.

бумага:АР Вест V.org/PDF/2105.14…

Код:GitHub.com/Му Руфенг/EP…

Для получения дополнительной информации, пожалуйста, обратите внимание на техническое руководство общедоступной учетной записи CV, уделяя особое внимание техническому обзору компьютерного зрения, отслеживанию новейших технологий.

Отправная точка этой статьи

1. SE учитывает только внимание канала и игнорирует пространственное внимание.

2. BAM и CBAM учитывают как внимание к каналу, так и пространственное внимание, но все же есть два наиболее важных недостатка: (1) пространственная информация в разных масштабах не фиксируется для обогащения пространства признаков. (2) Пространственное внимание рассматривает только информацию о локальных регионах и не может устанавливать долгосрочные зависимости.

3. Последующие PyConv, Res2Net и HS-ResNet используются для устранения этих двух недостатков CBAM, но объем вычислений слишком велик.

Основываясь на вышеупомянутых трех пунктах анализа, в этой статье предлагается пирамидальное расщепление внимания.

PSA

Основная операция: разделить входной тензор на S групп из каналов. Каждая группа выполняет свертку с разными размерами ядра свертки для получения рецептивных полей разного масштаба и извлечения информации разного масштаба. Затем через модуль SE извлекается взвешенное значение канала каждой группы, и, наконец, взвешенное значение группы S нормализуется и взвешивается softmax.

В частности, входной тензор разделен на S групп, а модуль SPC, который выполняет различные свертки для каждой группы, показан на рисунке ниже.

图片

SPC сначала делит входной тензор на S групп, и размер ядра свертки каждой группы увеличивается в свою очередь, например k=3,5,7,9. Учитывая, что при относительно большом ядре свертки объем вычислений также велик, поэтому для каждой группы выполняется групповая свертка, а конкретное число группировки G = exp(2,(k-1)/2), то есть (k из 2) -1)/2 мощности. Когда К = 3, 5, 7, 9, G = 1, 2, 3, 4.

После сверток разных размеров выполняется сшивание каналов.

Пройдя через модуль SPC, PSA получает значение внимания канала через выходные данные модуля SPC через модуль веса SE, Цель этого состоит в том, чтобы получить значения веса внимания карт признаков разных масштабов.

Таким образом, PSA объединяет контекстную информацию в разных масштабах и обеспечивает лучшее внимание на уровне пикселей.

Наконец, веса внимания каждой группы каналов объединяются, и выполняется нормализация softmax для взвешивания выходных данных модуля SPC.

Полный модуль PSA показан на рисунке ниже.

Вот дополнение к пирамиде в пирамиде расщепленного внимания. существует"Краткое изложение технологии пирамиды функций«Представляет два способа построения пирамиды функций, один из которых заключается в построении пирамиды функций посредством свертки ядер свертки разного размера. Поэтому пирамида в PSA здесь строится путем свертки каждой группы ядер свертки разного размера в модуле SPC.

EPSANet

Как показано на рисунке выше, PSA заменяет свертку 3x3 в узком месте ResNet и объединяет несколько таких модулей для формирования EPSANet, где E означает эффективность.

Схема сети показана на рисунке ниже.

图片

Conclusion

EPSANet используется для распознавания изображений, что на 1,93% выше, чем у SENet top-1acc. PSA используется в Mask RCNN, обнаружение объектов на 2,7 AP выше, а сегментация экземпляров на 1,7 AP выше.

Используя ResNet-50 и ResNet-101 в качестве основы, сравнение эффекта распознавания изображений при добавлении различных модулей внимания

图片

图片

** Для получения дополнительной информации, пожалуйста, обратите внимание на техническое руководство по общедоступной учетной записи CV, уделив особое внимание техническому обзору компьютерного зрения и новейших технологий отслеживания. **​

Ответьте на ключевое слово «Техническое резюме» в официальном аккаунте, чтобы получить резюме следующих статей в формате pdf.

Другие статьи

Краткое изложение терминологии компьютерного зрения (1) Создание системы знаний для компьютерного зрения

Краткое изложение методов недообучения и переобучения

Резюме методов нормализации

Краткое изложение общих идей бумажных инноваций

Резюме методов эффективного чтения англоязычной литературы по направлению CV

Обзор непродолжительного обучения компьютерному зрению

Краткий обзор дистилляции знаний

Оптимизировать скорость чтения видео OpenCV

Сводка NMS

Краткое изложение методов функции потерь

Техническое резюме механизма внимания

Краткое изложение технологии пирамиды функций

Краткое изложение технологии объединения

Краткое изложение методов увеличения данных

Резюме эволюции структуры CNN (1) Классическая модель

Резюме эволюции структуры CNN (2) Облегченная модель

Резюме эволюции структуры CNN (3) Принципы проектирования

Как увидеть будущее направление компьютерного зрения

Краткое изложение технологии визуализации CNN (1) - визуализация карты функций

Краткое изложение технологии визуализации CNN (2) - визуализация ядра свертки

Краткое изложение технологии визуализации CNN (3) - визуализация класса

Краткое описание технологии визуализации CNN (4) - инструменты и проекты визуализации