Модуль внимания Super Channel ECANet

Чтение бумаги CVPR2020 - модуль внимания супер канала ECANet! Адрес бумаги:АР Вест V.org/ABS/1910.03…

Резюме

Недавно было показано, что механизм внимания канала обладает большим потенциалом для повышения производительности глубоких сверточных нейронных сетей (CNN). Однако большинство существующих методов сосредоточены на разработке более сложных модулей внимания для достижения более высокой производительности, что неизбежно увеличивает сложность модели. Чтобы преодолеть парадокс между компромиссами между производительностью и сложностью, в этой статье предлагается модуль эффективного внимания к каналу (ECA), который содержит лишь небольшое количество параметров, но обеспечивает значительный прирост производительности. Анализируя модуль внимания канала в SENet, мы эмпирически показываем, что предотвращение уменьшения размерности важно для изучения внимания канала и что правильное межканальное взаимодействие может значительно снизить сложность модели при сохранении производительности. Поэтому мы предлагаем стратегию локального межканального взаимодействия без уменьшения размерности, которая может быть эффективно реализована с помощью одномерной свертки. Кроме того, мы предлагаем метод адаптивного выбора размера ядра одномерных сверток для определения охвата локальных межканальных взаимодействий. Предлагаемый модуль ECA эффективен и производительен, например, параметры модуля и вычисления для магистрали ResNet50 составляют 80 против 24,37 млн и 4,7e-4 GFLOP против 3,86 GFLOP соответственно, с улучшением более чем на 2% с точки зрения точности Топ-1. Мы тщательно оцениваем модуль ECA для классификации изображений, обнаружения объектов и сегментации экземпляров с использованием основы ResNets и MobileNetV2. Экспериментальные результаты показывают, что наш модуль более эффективен, чем аналогичные модули.

1. Введение

Глубокие сверточные нейронные сети (CNN) широко используются в сообществе компьютерного зрения и добились больших успехов в широком спектре задач, таких как классификация изображений, обнаружение объектов и семантическая сегментация. Начиная с новаторской AlexNet [17], многие исследования продолжали улучшать производительность глубоких CNN. В последнее время наблюдается большой интерес к включению внимания канала в сверточные блоки, демонстрируя большой потенциал для повышения производительности. Одним из типичных методов является сжатие и возбуждение сети ( SENet ) [14] , он может изучить канал внимания каждого блока свертки, тем самым обеспечивая различные глубокие CNN Архитектура обеспечивает значительные улучшения производительности.

После настройки сжатия (т. е. агрегации признаков) и возбуждения (т. е. повторной калибровки признаков) в SENet [14] некоторые исследования улучшают блоки SE за счет захвата более сложных корреляций каналов или включения дополнительного пространственного внимания. Хотя эти методы обеспечивают более высокую точность, они обычно вводят более сложную модель и требуют большей вычислительной нагрузки. В отличие от ранее упомянутых методов, которые обеспечивают лучшую производительность за счет более высокой сложности модели, в этой статье основное внимание уделяется вопросу: возможно ли изучить эффективный механизм внимания канала более эффективным способом?

Чтобы ответить на этот вопрос, мы сначала рассмотрим модуль внимания к каналу в SENet. В частности, с учетом входных характеристик блок SE сначала использует глобальное среднее объединение для каждого канала независимо, а затем использует два полносвязных (FC) уровня вместе с нелинейной сигмовидной функцией для генерации весов каналов. Два слоя FC предназначены для захвата нелинейных межканальных взаимодействий, которые включают уменьшение размерности для управления сложностью модели. Хотя эта стратегия широко используется в последующих модулях внимания канала [33, 13, 9], наши эмпирические исследования показывают, чтоУменьшение размерности приводит к побочным эффектам прогнозирования внимания к каналу, а захват зависимостей между всеми каналами неэффективен и не нужен.

Поэтому в этой статье предлагается модуль Efficient Channel Attention (ECA) для глубоких CNN, который позволяет избежать уменьшения размерности и эффективно фиксирует межканальные взаимодействия. как показано на рисунке 2,После объединения глобальных средних значений по каналам без уменьшения размерности наш ****ECA Рассматривая каждый канал и его k соседи для захвата локальных межканальных взаимодействий. Практика доказала, что этот метод может гарантировать эффективность и результативность. Обратите внимание, что наш ECA может быть эффективно реализован с помощью быстрых одномерных сверток размера k, где размер ядра k представляет охват локальных межканальных взаимодействий, т. е. сколько соседей участвует в предсказании внимания канала. Мы предлагаем метод адаптивного определения k, где охват взаимодействий (т. е. размер ядра k) пропорционален размерности канала. Как показано на рисунке 1 и в таблице 3, по сравнению с базовой моделью [11], глубокая CNN с нашим модулем ECA (называемым ECA-Net) вводит несколько дополнительных параметров и незначительные вычисления, обеспечивая при этом значительное улучшение производительности. Например, для ResNet-50 с 24,37 млн параметров и 3,86 GFLOP дополнительные параметры и вычисления ECA-Net50 составляют 80 и 4,7e-4 GFLOP соответственно, при этом по точности Top-1 ECA-Net50 превосходит ResNet. - 50 2,28%.

В таблице 1 приведены существующие модули внимания, включая уменьшение размерности канала (DR), взаимодействие каналов и аспекты упрощенной модели. Мы видим, что наш модуль ECA позволяет избежать уменьшения размерности канала, избегая уменьшения размерности канала, и в то же время чрезвычайно легким способом. Взаимодействия между различными каналами фиксируются. Чтобы оценить наш метод, мы проводим эксперименты на различных задачах с использованием различных глубоких архитектур CNN на ImageNet-1K [6] и MS COCO [23].

Основная работа этой статьи резюмируется следующим образом: ( 1 ) разбор SE блоков, и было эмпирически доказано, что отказ от уменьшения размерности эффективен для обучения, а правильное взаимодействие различных каналов важно для внимания к каналам. ****( 2 ) на основе приведенного выше анализа мы пытаемся предложить эффективный канал внимания ( ECA ) для глубины CNN Чрезвычайно легкий модуль внимания канала, который очень мало усложняет модель, добавляя значительные улучшения.(3) Экспериментальные результаты на ImageNet-1K и MS COCO показывают, что этот метод имеет меньшую сложность модели, чем современный метод, при этом достигая очень хороших конкурентоспособных характеристик.

2. Связанная работа

Оказывается, механизм внимания является потенциальным средством улучшения глубоких CNN. SE-Net [14] впервые предложила эффективный механизм обучения каналу внимания и добилась хороших результатов. Следовательно, развитие модулей внимания можно условно разделить на два направления: (1) расширенное агрегирование признаков; (2) сочетание канального и пространственного внимания. В частности, CBAM [33] использует среднее и максимальное объединение для агрегирования признаков. GSoP [9] вводит объединение второго порядка для более эффективного объединения функций. GE [13] исследовал пространственное расширение агрегированных признаков с использованием сверток по глубине [5]. CBAM [33] и scSE [27] вычисляют пространственное внимание, используя двумерные свертки с размером ядра k x k, которые затем объединяются с вниманием к каналу. Разделяя схожую философию с нелокальными (NL) нейронными сетями [32], GCNet [2] разрабатывает упрощенную NL-сеть и интегрируется с SE-блоками, в результате чего получается облегченная модель для модуля моделирования дальних зависимостей. Сети двойного внимания (A2-Nets) [4] вводят новую функцию ассоциации для блоков NL для распознавания изображений или видео. Сеть двойного внимания (DAN) [7] рассматривает как канал на основе NL, так и пространственное внимание для семантической сегментации. Однако из-за высокой сложности модели большинство вышеупомянутых модулей внимания на основе NL можно использовать только в одном или нескольких сверточных блоках. Очевидно, что все вышеперечисленные методы сосредоточены на предложении сложных модулей внимания для повышения производительности. В отличие от них, наша ECA направлена на изучение эффективного внимания к каналу с низкой сложностью модели.

Наша работа также включает в себя эффективные свертки, разработанные для облегченных CNN. Двумя широко используемыми эффективными свертками являются групповые свертки и свертки с разделением по глубине.. Как показано в таблице 2, хотя эти эффективные свертки включают меньше параметров, они играют небольшую роль в модуле внимания. Наш модуль ECA направлен на захват локальных межканальных взаимодействий, которые имеют сходство с локальной сверткой канала [36] и сверткой на уровне канала [8]; в отличие от них,Наш метод исследует одномерную свертку с адаптивным размером ядра для замены ****FC в модуле внимания канала. Этаж. ****По сравнению с группировкой и разделяемыми по глубине свертками наш метод обеспечивает лучшую производительность при меньшей сложности модели.

3. Предлагаемый способ

В этом разделе мы сначала рассмотрим модуль внимания канала (т. е. блок SE) в SENet [14]. Затем блоки SE оцениваются эмпирически путем анализа эффектов уменьшения размерности и межканального взаимодействия. Это мотивирует нас предложить модуль ECA. Кроме того, мы предлагаем метод адаптивного определения параметров ECA и, наконец, показываем, как его использовать для глубоких CNN.

3.1. Revisiting Channel Attention in SE Block

3.2. Efficient Channel Attention (ECA) Module

После повторного просмотра модуля SE мы проводим эмпирическое сравнение, чтобы проанализировать влияние уменьшения размерности канала и межканального взаимодействия на обучение внимания канала. Основываясь на этом анализе, мы предлагаем модуль эффективного внимания к каналу (ECA).

3.2.1 Avoiding Dimensionality Reduction

Чтобы проверить его эффект, мы сравниваем исходный блок SE с тремя его вариантами (т. е. SE-Var1, SE-Var2 и SEVar3), ни один из которых не выполняет уменьшение размерности. Как показано в таблице 2, SE-Var1 без параметров по-прежнему превосходит исходную сеть, что указывает на то, что внимание к каналу действительно может улучшить производительность глубоких CNN. Между тем, SE-Var2 изучает вес каждого канала независимо, что немного лучше, чем блок SE, но включает меньше параметров. Это может указывать на то, что каналы и их веса должны быть напрямую коррелированы, и что предотвращение уменьшения размерности более важно, чем рассмотрение нелинейных корреляций каналов. Кроме того, SEVar3 с одним уровнем FC превосходит два уровня FC, а размер блока SE уменьшается. Все приведенные выше результаты ясно показывают, что отказ от уменьшения размерности помогает научиться эффективному каналу внимания. Поэтому предлагаемый нами модуль ECA не уменьшает размер канала.

3.2.2 Local Cross-Channel Interaction

3.2.3 Coverage of Local Cross-Channel Interaction

4. Эксперимент

В этом разделе мы оцениваем предлагаемый метод в задачах крупномасштабной классификации изображений, обнаружения объектов и сегментации экземпляров в наборах данных ImageNet [6] и MS COCO [23]. В частности, сначала мы оцениваем влияние размера ядра на модуль ECA, а затем сравниваем с состоянием дел в ImageNet. Затем мы проверяем эффективность ECA-Net на MS COCO, используя Faster R-CNN [26], Mask R-CNN [10] и RetinaNet [22].

4.1. Implementation Details

Чтобы оценить нашу ECA-Net по классификации ImageNet, мы использовали четыре широко используемые CNN в качестве базовых моделей, включая ResNet-50 [11], ResNet-101 [11], ResNet-512 [11] и MobileNetV2 [28]. Для обучения ResNet с помощью нашего ECA мы использовали точно такие же настройки расширения данных и гиперпараметров, как в [11, 14]. В частности, входное изображение случайно обрезается до размера 224 × 224 путем случайного горизонтального отражения. Параметры сети оптимизируются стохастическим градиентным спуском (SGD) с уменьшением веса 1e-4, импульсом 0,9 и размером мини-пакета 256. Все модели можно обучать в течение 100 эпох, установив начальную скорость обучения на 0,1. 10-кратное уменьшение каждые 30 эпох. Чтобы обучить MobileNetV2 с помощью ECA, мы следуем настройке, описанной в [28], где сеть обучается в течение 400 эпох с использованием SGD со снижением веса 4e-5, импульсом 0,9 и мини-пакетом 96. Начальная скорость обучения была установлена на 0,045 и уменьшалась с линейной скоростью затухания 0,98. Для тестирования на проверочном наборе мы сначала изменяем размер короткой стороны входного изображения до 256 и используем центральную обрезку 224 x 224 для оценки.

Далее мы оцениваем наш метод на MS COCO с использованием Faster R-CNN [26], Mask R-CNN [10] и RetinaNet [22], где ResNet-50 и ResNet-101 и FPN [21] используются в качестве базовых моделей. Мы реализуем все детекторы с помощью инструментария MMDetection [3] с настройками по умолчанию. В частности, измените размер короткой стороны входного изображения на 800, затем оптимизируйте все модели с помощью SGD с уменьшением веса 1e-4, импульсом 0,9 и минимальным размером пакета 8 (4 GPU, 2 изображения на GPU). Скорость обучения была инициализирована до 0,01 и уменьшилась в 10 раз после 8 и 11 эпох соответственно.

5. Заключение

В этой статье мы сосредоточимся на обучении эффективному каналу внимания для глубоких CNN с низкой сложностью модели. С этой целью мы предлагаем эффективный модуль внимания канала (ECA), который генерирует внимание канала с помощью быстрых одномерных сверток, размер ядра которых может быть адаптивно определен нелинейным отображением размеров канала. Экспериментальные результаты показывают, что наш ECA является чрезвычайно легким модулем plug-and-play, который повышает производительность различных глубоких архитектур CNN, включая широко используемые ResNets и облегченный MobileNetV2. Кроме того, наша ECA-Net демонстрирует хорошую способность к обобщению в задачах обнаружения объектов и сегментации экземпляров. В будущем мы применим модуль ECA к большему количеству архитектур CNN (например, ResNeXt и Inception [31]) и дополнительно изучим комбинацию ECA с модулем пространственного внимания.

Хотя всем нравится проституция бесплатно, я все же верю, что некоторые люди дают вознаграждение и дают QR-код: