ICCV2021 | Отражение и улучшение кодирования относительного положения в Vision Transformer

глубокое обучение компьютерное зрение

предисловие

В компьютерном зрении эффективность кодирования относительного положения недостаточно изучена и даже остается спорной.В этой статье анализируются несколько ключевых факторов кодирования относительного положения и предлагается новый метод кодирования относительного положения для 2D-изображений, называемый Image RPE (IRPE). .

Эта статья взята из технического руководства по публичному аккаунту CV.Серия обмена бумагой

Обратите внимание на техническое руководство по общедоступной учетной записи CV, уделив особое внимание техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.

图片

Код:GitHub.com/Microsoft/C…

Background

Ядром Transformer является само-внимание, которое может последовательно моделировать отношения между токенами. Однако самовнимание имеет врожденный недостаток — оно не может зафиксировать порядок входных токенов. Таким образом, включение явных представлений информации о местоположении особенно важно для Transformers, так как в противном случае модель полностью невосприимчива к упорядочению последовательностей, что нежелательно для моделирования структурированных данных.

Существует два основных типа методов кодирования представлений положения трансформатора. Одно абсолютно, а другое относительно.

Абсолютный метод введет абсолютную позицию токенов от 1 до максимальной длины последовательности.**. То есть каждая позиция имеет отдельный вектор кодирования**. Затем закодированный вектор объединяется с входными токенами для передачи информации о местоположении в модель.

Метод относительного положения кодирует относительные расстояния между входными токенами и изучает попарные отношения между токенами.. Кодирование относительного положения (RPE) обычно вычисляется с помощью таблицы поиска с изучаемыми параметрами, которые взаимодействуют с запросом и ключом в модуле самообслуживания. Такая схема позволяет модулям фиксировать очень длинные зависимости между токенами.

Было показано, что кодирование относительного положения эффективно при обработке естественного языка. Однако в компьютерном зрении этот эффект остается неясным. Несколько недавних работ изложили это, но противоречивые выводы были сделаны с точки зрения Трансформаторов Видения.

Например, Досовицкий и др. заметили, что кодирование относительного положения не дает никакого выигрыша по сравнению с кодированием абсолютного положения. И наоборот, Шринивасет и др. обнаружили, что относительное позиционное кодирование может давать значительный выигрыш по сравнению с абсолютным позиционным кодированием. Кроме того, в недавней работе утверждается, что кодирование относительного положения работает не так хорошо, как кодирование абсолютного положения. Эти работы приходят к разным выводам об эффективности кодирования относительного положения в модели, что побуждает нас пересмотреть и поразмышлять над применением кодирования относительного положения в Vision Transformer.

С другой стороны, языковое моделирование использует необработанное кодирование относительного положения, а входные данные представляют собой одномерную последовательность слов. Но для задач зрения входными данными обычно являются 2D-изображения или видеоряды, где пиксели имеют высокую пространственную структуру. Неясно: подходит ли расширение от 1D к 2D для моделей зрения, важна ли информация об ориентации в задачах зрения?

Contributions

В этой статье сначала рассматриваются существующие методы кодирования относительного положения, а затем предлагается новый метод кодирования 2D-изображений. Сделал следующие взносы.

1.Анализируются несколько ключевых факторов кодирования относительного положения., включая относительную ориентацию, важность контекста, взаимодействия между вложениями запроса, ключа, значения и относительного положения, а также вычислительные затраты.Этот анализ обеспечивает всестороннее понимание кодирования относительного положения и предоставляет эмпирические рекомендации для разработки новых методов..

2.Предложен эффективный метод реализации относительного кодирования., вычислительные затраты снижаются с исходных O() до O(nkd) (где k

3. Всестороннее рассмотрение эффективности и универсальности,Предлагаются четыре новых метода кодирования относительного положения для преобразователей зрения, называемых RPE изображения (IRPE).. Эти методы просты и могут быть легко вставлены в слои само-внимания. Эксперименты показывают, что без настройки каких-либо гиперпараметров и настроек метод превосходит свои оригинальные модели DeiTS и DETR-ResNet50 на 1,5% (top-1ACC) и 1,3% (MAP) на ImageNet и COCO соответственно.

4. Эксперименты показывают, чтоВ задачах классификации изображений кодирование относительного положения может заменить абсолютное кодирование. В то же время абсолютное кодирование необходимо для обнаружения объектов, где положение пикселя важно для локализации объекта..

Methods

Во-первых, чтобы выяснить, может ли кодирование быть независимым от встраивания входных данных, в документе представлены два режима относительного положения: режим смещения и контекстный режим. В отличие от традиционной функции Clip, в документе предлагается функция Piecewise для сопоставления относительного положения с кодировкой. После этого, чтобы изучить важность направленности, в статье разработаны два ненаправленных метода и два направленных метода.

Режим смещения и контекстный режим

Кодирование относительного положения предыдущих методов основано на встраивании входных данных. Возникает вопрос, не зависит ли это от входной кодировки? В статье представлено относительное положение режимов смещения кодирования и контекстной модели для изучения проблемы. Первый встраивается независимо от ввода, который считается взаимодействующим с запросом, ключом или значением.

Он представлен единой формулой, а именно

图片

где b_ij — двумерное кодирование относительного положения, используемое для определения режима смещения или контекста.

Для режима смещения b_ij = r_ij, где r_ij — обучаемый скаляр, представляющий относительный вес позиции между позициями i и j.

Для контекстного режима

图片

где r_ij — обучаемый вектор для взаимодействия с встраиванием запроса. Существует несколько вариантов контекстного режима, которые здесь не будут перечислены, если вам это нужно, обратитесь к статье.

Piece Index Function

Прежде чем описывать двумерные относительные веса позиций, мы сначала вводим функцию «многие к одному», чтобы сопоставить относительное расстояние с целым числом в конечном наборе, а затем используем целое число в качестве индекса для совместного кодирования между различными позициями отношения. Такая функция индексирования может значительно снизить вычислительные затраты и количество параметров для длинных последовательностей, таких как изображения с высоким разрешением.

Хотя функция отсечения h(X) = max(−β, min(β, x)), используемая в [18], также снижает стоимость, положения с относительными расстояниями, превышающими β, назначаются одному и тому же кодированию. Этот подход неизбежно упускает контекстуальную информацию об удаленном относительном местоположении.

В статье вводится кусочная функция g(x): R→{y∈Z|−β≤y≤β} для индексации относительного расстояния до соответствующего кодирования. Функция основана на предположении, что более близкие соседи более важны, чем дальние соседи, и распределяет внимание по относительному расстоянию. это выражается как

图片

Где [ ] — операция округления, а Sign() определяет знак числа, то есть 1 возвращается при положительном вводе, -1 при отрицательном вводе и 0 в противном случае. α определяет точку сегментации, β управляет выводом в диапазоне [-β, β], а γ регулирует кривизну логарифмической части.

图片

Сравните кусочную функцию h(X) с функцией отсечения h(X) = min(−β, max(β, x)). На рисунке 2 функция отсечения h(x) равномерно распределяет внимание, опуская удаленные местоположения, а кусочная функция g(x) распределяет разные уровни внимания в соответствии с относительными расстояниями. Авторы считают, что скрытая информация об удаленных местах должна быть сохранена, особенно для изображений с высоким разрешением или задач, требующих долгосрочных зависимостей признаков, поэтому для построения метода отображения выбрано значение g(X).

2D расчет относительного положения

1. ** Евклидов метод (Евклидов метод): ** Вычислить евклидово расстояние двух относительных положений и сопоставить расстояние с соответствующим кодом с помощью скаляра обучаемого смещения или вектора контекста.

2.Метод квантования: В приведенном выше методе евклидова расстояния два ближайших соседа с разными относительными расстояниями могут быть сопоставлены с одним и тем же индексом, например, двумерные относительные положения (1, 0) и (1, 1) оба сопоставлены с индексом 1, Вместо этого следует отделить ближайших соседей. Следовательно, евклидово расстояние необходимо квантовать, то есть разные действительные числа сопоставляются с разными целыми числами.

图片

quant() отображает набор действительных чисел {0, 1, 1,41, 2, 2,24, ...} в набор целых чисел {0, 1, 2, 3, 4, ...}. Этот метод также является ненаправленным.

3.Перекрестный метод. Позиционная ориентация пикселей также важна для изображения, поэтому предлагается метод направленного отображения. Этот метод, называемый методом Cross, вычисляет кодировки в горизонтальном и вертикальном направлениях отдельно, а затем суммирует их. Метод дается следующим образом,

图片

где p˜xi(i, j) и p˜yi(i, j) являются обучаемыми скалярами в режиме смещения или обучаемыми векторами в контекстном режиме. Подобно кодированию в SASA, одно и то же смещение использует одно и то же кодирование по оси x или оси y, но основное отличие состоит в том, что мы используем кусочную функцию для распределения внимания на основе относительного расстояния.

4.Метод продукта. Если расстояние одинаково в одном направлении, горизонтальном или вертикальном, метод пересечения кодирует разные относительные положения в одно и то же вложение. Кроме того, метод пересечения требует дополнительных вычислительных ресурсов. Чтобы повысить эффективность и включить больше направленной информации, в документе разработан метод продукта, и его формула выглядит следующим образом.

图片

эффективная реализация

В контекстном режиме все вышеперечисленные методы имеют общую часть: .

Вычисление этой части требует временной сложности O(), где n и d представляют длину входной последовательности и количество функциональных каналов соответственно. Из-за того, что I(i,j) имеет отношение «многие к одному», размер K набора I(i,j) обычно меньше, чем преобразователь зрения. Таким образом, в статье предлагается следующая эффективная реализация:

图片

Для предварительного вычисления всех z_i,t и последующего присвоения zi_,t этому общему выражению путем отображения t=i(i,j) требуется временная сложность O(nkd). Временная сложность операции присваивания составляет O(N^2), что намного дешевле, чем процесс предварительного вычисления. Следовательно, вычислительная стоимость кодирования относительного положения также снижается с O() до O(nkd).

Conclusion

1. Сравнение двух режимов четырех методов.

图片

В преобразователях зрения направленные методы (кросс и произведение) обычно работают лучше, чем ненаправленные методы (евклидово расстояние и квантование). Это явление показываетНаправленность важна для преобразователей зрения, потому что пиксели изображения хорошо структурированы и семантически связаны..

Независимо от используемого метода контекстный режим обеспечивает лучшую производительность, чем режим смещения. Потенциальной причиной может быть то, что контекстный режим меняет кодировку с входными функциями, в то время как режим смещения остается статичным..

2. Кодирование относительного положения может быть общим или не общим для разных заголовков для сравнения результатов.

图片

Для предвзятого режима точность значительно падает, когда кодирование используется совместно между заголовками. Напротив, в контекстном режиме разрыв в производительности между двумя схемами незначителен.. Оба метода достигли средней точности TOP-1 80,9%.

В документе предполагается, что разные головки требуют разного кодирования относительного положения (RPE) для захвата разной информации. В контекстном режиме каждая головка может вычислить свой RPE по формуле. В режиме смещения общий RPE заставляет все головки уделять патчам одинаковое внимание.

3. Сравнение кусочной функции и функции отсечения

图片

В задачах классификации изображений разрыв в производительности между этими двумя функциями очень мал или даже незначителен. Однако в задаче обнаружения объектов функция отсечения хуже, чем функция сегментации. Основная причина заключается в том, что эти две функции очень похожи, когда длина последовательности короткая. Кусочные функции эффективны, особенно когда размер последовательности намного больше, чем количество сегментов. (Примечание: автор использует P_I(i,j) как ведро (ведро) для хранения весов относительного положения)

По сравнению с классификацией при обнаружении объектов используются входные данные с гораздо более высоким разрешением, что приводит к гораздо более длинной входной последовательности. Поэтому предполагается, что, когда входная последовательность длинная, следует использовать кусочную функцию, поскольку она может уделять различное внимание местоположениям с относительно большими расстояниями, в то время как, когда относительное расстояние больше, чем β, функция обрезки назначает то же самое. кодирование.

4. Сравнение с другими моделями SOTA на ImageNet

图片

Добро пожаловать в техническое руководство CV для общедоступной учетной записи, в котором основное внимание уделяется техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.

Другие статьи

ICCV2021 | TransFER: обучение представлениям выражений лица с учетом отношений с использованием трансформеров

2021 - Обзор многообъектного отслеживания в видеонаблюдении

Понимание алгоритмов обнаружения объектов с единой точки зрения: анализ и сводка последних достижений

10 обязательных к прочтению работ по восстановлению изображения | Краткое описание извлечения признаков изображения HOG и SIFT

Всестороннее понимание якорей в обнаружении целей | Резюме сегментации экземпляра Резюме Полное издание
Обзор одноэтапной сегментации экземпляров | Некоторые проблемы, идеи и решения обнаружения малоразмерных целей

Резюме функции потерь регрессии при обнаружении цели | Краткое изложение распространенных методов обнаружения малых целей

Обзор визуального преобразователя | Обзор последних исследований по обнаружению малоразмерных целей в 2021 году

Обзор сиамской сети | Обзор оценки позы | Обзор семантической сегментации

CVPR2021 | SETR: переосмысление семантической сегментации с точки зрения от последовательности к последовательности с использованием преобразователей

Обсуждение размера модели глубокого обучения и скорости вывода модели

Разница между обнаружением видеообъекта и обнаружением объекта изображения

Опыт работы и восприятие алгоритма CV от года

Обзор понимания видео: распознавание действий, расположение последовательности действий, встраивание видео

Состояние компьютерного зрения из докладов CVPR 2021

ICCV2021 | MicroNet: Улучшение распознавания изображений с очень низкими значениями FLOP

ICCV2021 | Глубокое понимание CNN

ICCV2021 | Переосмысление пространственного измерения визуальных трансформеров

CVPR2021 | TransCenter: Преобразователи для алгоритмов многообъектного отслеживания

CVPR2021 | Обнаружение объектов в открытом мире

CVPR2021 | TimeSformer — пространственно-временная модель внимания для понимания видео

CVPR2021 | Эффективный модуль внимания сегментации пирамиды PSA

CVPR2021 | Новый способ функциональной пирамиды YOLOF

Серия Classic Paper | Капсульные сети: новые сети глубокого обучения

Серия Classic Paper | Переосмысление предварительного обучения в ImageNet

Классическая серия статей | Дефекты групповой нормализации и BN

Классическая серия документов | Обнаружение целей - CornerNet и также известные как дефекты якорных ящиков

Классическая серия статей | Подходы к преодолению разрыва между обнаружением на основе привязки и обнаружением без привязки: выбор адаптивного обучающего образца