ICCV2021 | Переосмысление пространственного измерения визуальных трансформеров

компьютерное зрение

Диссертация: Переосмысление пространственных размеров преобразователей зрения

Код:GitHub.com/thatver-love/pi…

Получить: ответ «0006» на фоне технического руководства CV.

**Следовать,**Сосредоточьтесь на техническом обзоре компьютерного зрения, новейших технологий отслеживания и интерпретации классических статей.

Предисловие:

Из-за новаторского характера архитектур на основе трансформаторов в моделировании компьютерного зрения меньше исследований по проектным соглашениям для эффективных архитектур. Начиная с успешных принципов проектирования CNN, мы исследуем роль преобразования пространственных измерений и его эффективность для архитектур на основе преобразователей.

Мы уделяем особое внимание принципу уменьшения размерности CNN: традиционные CNN увеличивают размерность канала и уменьшают пространственную размерность по мере увеличения глубины. Мы эмпирически показываем, что это уменьшение пространственной размерности также приносит пользу архитектуре преобразователя, и предлагаем новый преобразователь зрения на основе пула на основе исходной модели ViT (преобразователь зрения на основе пула —PiT).

Мы показываем, что PiT обеспечивает улучшенные возможности модели и производительность обобщения для ViT. В обширных экспериментах мы также показываем, что PiT превосходит базовый уровень в нескольких задачах, таких как классификация изображений, обнаружение объектов и оценка надежности.

Точка отправления

1. CNN ограничивает пространственное взаимодействие, ViT позволяет всем точкам на изображении взаимодействовать через слои преобразователей.

2. Хотя ViT является инновационной архитектурой и доказала свои мощные возможности распознавания изображений, она следует архитектуре Transformer в НЛП без каких-либо изменений.

3. Некоторые базовые принципы проектирования CNN доказали свою эффективность в компьютерном зрении за последнее десятилетие, но не нашли должного отражения.

Поэтому мы пересмотрели принципы проектирования архитектур CNN и исследовали их эффективность применительно к архитектурам ViT.

Инновационные идеи

CNN начинают с признаков большого пространственного размера и небольшого размера канала и постепенно увеличивают размер канала при уменьшении пространственного размера. Это пространственное преобразование необходимо из-за слоев, называемых пространственным объединением. Современные архитектуры CNN, включая AlexNet, ResNet и EfficientNet, следуют этому принципу проектирования.

Слой объединения тесно связан с размером рецептивного поля каждого слоя. Несколько исследований показали, что объединяющие слои способствуют выразительности и эффективности обобщения сети. Однако, в отличие от CNN, ViT не использует слои пула, а использует пространство одинакового размера во всех слоях.

Во-первых, мы проверяем преимущества объединения слоев в CNN. Наши эксперименты показывают, что слои пула демонстрируют возможности модели и производительность обобщения ResNet. Чтобы распространить преимущества объединения слоев на ViT, мы предлагаем визуальные преобразователи на основе объединения (PiT).

PiT представляет собой архитектуру преобразователя в сочетании с объединяющими слоями. Это может уменьшить размер пространства в структуре ViT, как в ResNet. Мы также исследуем преимущества PiT по сравнению с ViT и подтверждаем, что слой пула также повышает производительность ViT.

Наконец, чтобы проанализировать эффект объединения слоев в ViT, мы измеряем коэффициент пространственного взаимодействия ViT, который аналогичен размеру рецептивного поля сверточных архитектур. Мы показываем, что объединяющие слои контролируют величину пространственных взаимодействий, происходящих в слоях само-внимания, подобно управлению рецептивным полем сверточных архитектур.

Methods

图片

Диаграмма конфигурации измерения сетевой архитектуры

Мы визуализируем ResNet50, Vision Transformer (ViT) и Vision Transformer на основе пула (PiT); (а) ResNet50 постепенно снижает выборку объектов от входа к выходу; (б) ViT не использует слои пула, поэтому все слои сохраняют размерность объектов; ( c) PiT включает объединение слоев в ViT.

Vision Transformer (PiT) на основе пула​​​​​​​​

图片

Пулирующий слой архитектуры PiT

PiT использует слои пула на основе свертки по глубине для достижения умножения каналов и уменьшения пространства с небольшими параметрами.

图片

Effects of the pooling layer in vision transformer (ViT)

Мы сравниваем наш визуальный преобразователь (PiT) на основе пула с оригинальным ViT в различных аспектах сетевой архитектуры. PiT превосходит ViT с точки зрения емкости, производительности обобщения и производительности модели.

Spatial interactio

Слой само-внимания также ограничен количеством токенов взаимодействия, поэтому область взаимодействия определяется в соответствии с размером пространства.

Мы измерили область пространственного взаимодействия ViT и PiT, используя предварительно обученную модель в ImageNet. Критерием пространственного взаимодействия является оценка после soft-max на основе матрицы внимания. Мы использовали 1% и 10% в качестве пороговых значений, подсчитали количество пространственных местоположений, в которых произошли взаимодействия, превышающие порог, и рассчитали коэффициент пространственного взаимодействия, разделив количество мест взаимодействия на общий размер пространственных маркеров.

В случае ViT взаимодействие в среднем составляет от 20% до 40%, и, поскольку нет объединяющих слоев, значения существенно не различаются от слоя к слою. PiT уменьшает количество токенов, увеличивая голову за счет объединения.

Поэтому, как показано на рисунке 5(а), скорость взаимодействия первых слоев мала, но последний слой показывает скорость взаимодействия, близкую к 100%. Для сравнения с ResNet мы изменили пороговое значение на 10%, и результат показан на рисунке 5(b).

图片

В случае ResNet свертки 3x3 означают пространственные взаимодействия 3x3. Поэтому мы делим 3x3 на размер пространства и сравниваем его как приближение к скорости взаимодействия внимания. В то время как скорость взаимодействия ViT одинакова на разных уровнях, скорость взаимодействия ResNet и PiT увеличивается по мере прохождения через слои объединения.

Architecture

图片

В таблице показаны пространственные размеры, количество блоков, количество головок, размер канала и FLOP для ViT и PiT. Структура PiT максимально похожа на ViT с меньшей задержкой GPU.

Conclusion

Мы проверяем, что PiT улучшает производительность ViT в различных задачах. В классификации ImageNet PiT и ViT превосходят ViT в различных масштабах и условиях обучения. Кроме того, мы сравниваем производительность PiT с различными сверточными архитектурами и указываем масштаб, по которому архитектура Transformer превосходит CNN.

Далее мы измеряем производительность PiT при обнаружении объектов с помощью детекторной головки. DETR на основе ViT и PiT обучается на наборе данных COCO 2017, и результаты показывают, что PiT в качестве базовой архитектуры даже больше подходит, чем ViT, для задач, отличных от классификации изображений. Наконец, мы проверяем производительность PiT в различных средах с помощью тестов надежности.

图片

图片

Эта статья взята из серии публикаций в Техническом руководстве CV для общедоступных аккаунтов.

Добро пожаловать в техническое руководство CV для общедоступной учетной записи, в котором основное внимание уделяется техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.

Ответьте на ключевое слово «Техническое резюме» в официальном аккаунте, чтобы получить резюме следующих статей в формате pdf.

Другие статьи

Техническое руководство по CV - Резюме и классификация основных статей

Самостоятельное внимание в компьютерном зрении

Обзорная колонка | Обзор оценки позы

Говоря об оптимизации CUDA

Почему GEMM лежит в основе глубокого обучения

Почему 8 бит достаточно для использования глубоких нейронных сетей?

Серия Classic Paper — Капсульные сети: новая сеть глубокого обучения

Классическая серия документов | Обнаружение целей - CornerNet и также известные как дефекты якорных ящиков

Как просмотреть пузырь искусственного интеллекта

Четкое обнаружение границ с использованием Dice loss

PVT — многофункциональная основа для плотного прогнозирования без свертки

CVPR2021 | Обнаружение объектов в открытом мире

Siamese networkСводка

Визуальное обнаружение и распознавание объектов Прошлое, настоящее и возможное

Какие концепции или методы вы освоили за свою карьеру инженера-алгоритма, которые заставляют вас чувствовать, что вы выросли как на дрожжах?

Краткое изложение терминологии компьютерного зрения (1) Создание системы знаний для компьютерного зрения

Краткое изложение методов недообучения и переобучения

Резюме методов нормализации

Краткое изложение общих идей бумажных инноваций

Резюме методов эффективного чтения англоязычной литературы по направлению CV

Обзор непродолжительного обучения компьютерному зрению

Краткий обзор дистилляции знаний

Оптимизировать скорость чтения видео OpenCV

Сводка NMS

Краткое изложение методов функции потерь

Техническое резюме механизма внимания

Краткое изложение технологии пирамиды функций

Краткое изложение технологии объединения

Краткое изложение методов увеличения данных

Резюме эволюции структуры CNN (1) Классическая модель

Резюме эволюции структуры CNN (2) Облегченная модель

Резюме эволюции структуры CNN (3) Принципы проектирования

Как увидеть будущее направление компьютерного зрения

Краткое изложение технологии визуализации CNN (1) Визуализация карты объектов

Краткое описание технологии визуализации CNN (2) Визуализация ядра свертки

Краткое изложение технологии визуализации CNN (три) визуализации

Краткое описание технологии визуализации CNN (4) инструменты и проекты визуализации