Резюме инновационных идей модели трансформатора в компьютерном зрении

Предисловие

В этом документе рассматривается структура ViT и обобщаются основные идеи по улучшению преобразователей в компьютерном зрении: улучшение сегментации, улучшение кодирования положения, улучшение кодировщика и усиление декодера. По каждой идее вводятся соответствующие документы, а также отправные точки и идеи по улучшению этих документов.

Цель этой статьи не в том, чтобы представить, какие модели в настоящее время есть у трансформатора, а в том, чтобы изучить идеи других по поиску проблем и их улучшению, чтобы предложить соответствующие и разумные улучшения в своем собственном направлении.

Эта статья взята из технического руководства по публичному аккаунту CV.Серия обмена бумагой,Серия технических резюме

Обратите внимание на техническое руководство по общедоступной учетной записи CV, уделив особое внимание техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.

Обзор ViT

Прежде чем говорить об инновационной модели преобразователя в компьютерном зрении, необходимо рассмотреть его общую модель. В этой статье выбран наиболее часто используемый ViT.

Как показано на рисунке, для изображения сначала разделите его на патчи NxN, сгладьте патчи, затем сопоставьте их с токенами через полностью связанный слой и добавьте вложение положения к каждому токену, что будет случайным образом инициализировать токены после объединения с токены, сгенерированные изображением, а затем проходящие через модуль Encoder преобразователя, после прохождения нескольких слоев Encoders, последние токены (т.е. случайно инициализированные токены) вынимаются, а затем полностью связанный слой используется как классификационная сеть для классификации.

В этом процессе есть много возможностей для улучшения.Давайте посмотрим, как думают и улучшаются другие статьи. Следующее упорядочено по улучшению каждого шага реализации выше.

Улучшить идеи

1. Блокировка улучшений

Трансформатор изображения с прогрессивной выборкой

Диссертация: Vision Transformer с прогрессивной выборкой (ICCV2021)

Код:GitHub.com/the удачливее/PS-vi…

Задайте вопрос

ViT использует простую схему токенизации, которая разбивает изображение на серию регулярно расположенных патчей, которые линейно проецируются на токены. Таким образом изображения преобразуются в сотни визуальных токенов.

Однако ограничения этой схемы токенизации очевидны.

Во-первых,Жесткая сегментация может отделить некоторые сильно коррелированные области, которые должны быть смоделированы с одним и тем же набором параметров, что разрушает присущую объекту структуру и делает входные патчи менее информативными.. На рисунке видно, что голова кошки разделена на несколько частей, что приводит к проблеме распознавания, основанной только на одной части. Второй,токены размещаются на регулярной сетке независимо от основного содержимого изображения. На рисунке видно, что большая часть сеток сфокусирована на неинтересном фоне, из-за чего интересующие объекты переднего плана могут быть заглушены мешающим сигналом.

Улучшить идеи

зрительная система человекаОрганизуйте визуальную информацию совершенно иначе, чем обрабатывая сразу всю сцену без разбора. Вместо этого этоПостепенно и выборочно фокусируйте внимание на интересных частях визуального пространства, когда и где это необходимо, и игнорируйте неинтересные части, комбинируя информацию от разных взглядов, чтобы понять сцену с течением времени..

Вдохновленный описанным выше процессом,бумагапредложилНовый модуль Progressive Sampling на основе Transformer, который точно узнает, где смотреть изображения, чтобы облегчить проблемы, вызванные простой схемой токенизации в ViT..

Модуль, предложенный в документе, не производит выборку из фиксированной позиции, а обновляет позицию выборки итеративно.. Как показано, на каждой итерации маркеры текущего шага выборки передаются на уровень кодирования преобразователя, и прогнозируется набор смещений выборки для обновления позиции выборки для следующего шага. Этот механизм использует способность преобразователя собирать глобальную информацию, оценивая смещение до интересующей области путем объединения локального контекста и положения текущих токенов. Таким образом, внимание шаг за шагом фокусируется на различимых областях изображения, точно так же, как человеческое зрение.

Для получения подробной информации, пожалуйста, прочитайте:ICCV2021 Преобразователь технического зрения с прогрессивной выборкой

2. Отражение и улучшение кодирования относительного положения

Диссертация: Переосмысление и улучшение кодирования относительного положения для Vision Transformer (ICCV2021)

Код:GitHub.com/Microsoft/C…

Задайте вопрос

Существует два основных типа методов кодирования представлений положения трансформатора. Одно абсолютно, а другое относительно.

Абсолютный метод кодирует абсолютную позицию входных токенов от 1 до максимальной длины последовательности.**. То есть каждая позиция имеет отдельный вектор кодирования**. Затем закодированный вектор объединяется с входными токенами для передачи информации о местоположении в модель.

Метод относительного положения кодирует относительные расстояния между входными токенами и изучает попарные отношения между токенами.. Кодирование относительного положения (RPE) обычно вычисляется с помощью таблицы поиска с изучаемыми параметрами, которые взаимодействуют с запросом и ключом в модуле самообслуживания. Такая схема позволяет модулям фиксировать очень длинные зависимости между токенами.

Было показано, что кодирование относительного положения эффективно при обработке естественного языка. Однако в компьютерном зрении этот эффект остается неясным. Несколько недавних работ изложили это, но противоречивые выводы были сделаны с точки зрения Трансформаторов Видения.

Например, Досовицкий и др. заметили, что кодирование относительного положения не дает никакого выигрыша по сравнению с кодированием абсолютного положения. И наоборот, Шринивасет и др. обнаружили, что относительное позиционное кодирование может давать значительный выигрыш по сравнению с абсолютным позиционным кодированием. Кроме того, в недавней работе утверждается, что кодирование относительного положения работает не так хорошо, как кодирование абсолютного положения. Эти работы приходят к разным выводам об эффективности кодирования относительного положения в модели, что побуждает нас пересмотреть и поразмышлять над применением кодирования относительного положения в Vision Transformer.

С другой стороны, языковое моделирование использует необработанное кодирование относительного положения, а входные данные представляют собой одномерную последовательность слов. Но для задач зрения входными данными обычно являются 2D-изображения или видеоряды, где пиксели имеют высокую пространственную структуру. Неясно: подходит ли расширение от 1D к 2D для моделей зрения, важна ли информация об ориентации в задачах зрения?

Улучшить идеи

1.В статье анализируются несколько ключевых факторов кодирования относительного положения., включая относительную ориентацию, важность контекста, взаимодействия между вложениями запроса, ключа, значения и относительного положения, а также вычислительные затраты.Этот анализ обеспечивает всестороннее понимание кодирования относительного положения и предоставляет эмпирические рекомендации для разработки новых методов..

2.Предложен эффективный метод реализации относительного кодирования., вычислительные затраты снижаются с исходных O() до O(nkd) (где k

3. Всестороннее рассмотрение эффективности и универсальности,Предлагаются четыре новых метода кодирования относительного положения для преобразователей зрения, называемых RPE изображения (IRPE).. Эти методы просты и могут быть легко вставлены в слои само-внимания. Эксперименты показывают, что без настройки каких-либо гиперпараметров и настроек метод превосходит свои оригинальные модели DeiTS и DETR-ResNet50 на 1,5% (top-1ACC) и 1,3% (MAP) на ImageNet и COCO соответственно.

4. Эксперименты показывают, чтоВ задачах классификации изображений кодирование относительного положения может заменить абсолютное кодирование. В то же время абсолютное кодирование необходимо для обнаружения объектов, где для локализации объекта важно расположение пикселя..

Для получения подробной информации, пожалуйста, прочитайте:ICCV2021 | Отражение и улучшение кодирования относительного положения в Vision Transformer

3.Улучшения кодировщика

Что касается улучшения Энкодера, то большинство улучшений делается в соответствии с характеристиками или проблемами каждой задачи, когда преобразователь используется для конкретных задач. Хотя это не обязательно общая модель, идеи улучшения, отраженные в процессе улучшения, все же заслуживают изучения и ссылки на них.

TransFER

Бумага: TransFER: Изучение представлений выражения лица с учетом отношений с помощью трансформеров (ICCV2021)

Задайте вопрос

Распознавание выражений имеет характеристики небольшого сходства внутри класса и большого сходства между классами. В то же время необходимо извлекать различные локальные представления для классификации различных выражений.Более разнообразные локальные патчи могут вступить в игру, даже если некоторые локальные патчи не видны. При этом разные локальные блоки могут дополнять друг друга.

Например, как показано, трудно отличить удивление (строка 1) от гнева (строка 2) только по площади рта (столбец 2). Предлагаемая нами модель TransFER исследует различные части лица, учитывающие отношения, такие как область между глазами (столбец 3, ряд 1) и брови (столбец 3, ряд 2), что помогает различать эти разные выражения.

следовательно,Взаимосвязь между различными локальными исправлениями следует исследовать в глобальном масштабе, выделяя важные исправления и подавляя бесполезные исправления..

Улучшить идеи

В статье предлагается модель TransFER для изучения различных локальных представлений FER с учетом отношений.

Во-первых,Предлагается алгоритм Multi-Attention Dropping (MAD) для случайного исключения карт внимания.. Таким образом, модель подталкивается к изучению всеобъемлющих локальных исправлений, отличных от наиболее отличительных, адаптивно фокусируясь на различных локальных исправлениях. Это особенно полезно, когда некоторые части не видны из-за изменения позы или окклюзии.

Во-вторых, Vision Transformer (VIT) адаптирован для FER, называемого VIT-FER, для моделирования соединений между несколькими локальными блоками. так какГлобальная область действия используется для улучшения каждого локального блока, и полностью используется взаимодополняемость между несколькими локальными блоками., что повышает эффективность распознавания.

В-третьих, многоголовое самовнимание позволяет VIT совместно фокусироваться на функциях из разных информационных подпространств в разных местах. Однако при отсутствии четких указаний могут быть установлены избыточные отношения. Для решения этой проблемы,Предлагается метод отбрасывания самоконтроля с несколькими головками (MSAD) для случайного отбрасывания самоконтроля.. В этом случае, если отказаться от внимания к себе, модель вынуждена учиться полезным отношениям откуда-то еще. В результате богатые отношения между различными локальными блоками используются в интересах FER.

Объединяя новые модули MAD и MSAD, предлагается окончательная архитектура, названная TransFER. Как показано, TransFER находит более разнообразные реляционные локальные представления (столбец 3) по сравнению с базовым уровнем VIT-FER (столбец 2), тем самым различая эти различные выражения. Он достигает производительности SOTA в нескольких тестах FER, демонстрируя свою эффективность.

Для получения подробной информации, пожалуйста, прочитайте:ICCV2021 | TransFER: обучение представлениям выражений лица с учетом отношений с использованием трансформеров

SOTR

Документ: SOTR: Сегментация объектов с помощью преобразователей (ICCV2021)

Код:GitHub.com/east on-CA U/…

Задайте вопрос

Есть еще некоторые недостатки в использовании преобразователей для семантической сегментации. с одной стороны,Преобразователи плохо извлекают признаки низкого уровня, что приводит к неправильным прогнозам для небольших объектов.. с другой стороны,Из-за обширного характера карты признаков она требует много памяти и времени, особенно на этапе обучения..

Улучшить идеи

Чтобы преодолеть эти недостатки, в статье предлагается инновационная восходящая модель SOTR, которая умело сочетает в себе преимущества CNN и трансформатора.

В центре внимания SOTR находится изучение того, как лучше использовать семантическую информацию, извлекаемую преобразователем. Чтобы уменьшить объем хранения и вычислительную сложность традиционного механизма внутреннего внимания, в статье предлагается двойное внимание, которое использует разреженное представление традиционной матрицы внимания.

1.В документе предлагается инновационная структура сегментации экземпляров CNN-Transformer-hybrid, называемая SOTR.. Он может эффективно моделировать локальные соединения и долгосрочные зависимости, используя магистраль CNN и кодировщик преобразователя во входной области, что делает их очень выразительными. Что еще более важно, SOTR значительно упрощает весь конвейер, напрямую сегментируя экземпляры объектов, не полагаясь на обнаружение блоков.

2. ** Дизайн двойного внимания, который представляет собой новый механизм внутреннего внимания, чувствительный к положению, ** специально разработан для трансформаторов. По сравнению с оригинальным трансформатором,Эта хорошо продуманная структура SOTR обеспечивает значительную экономию вычислений и памяти, особенно для больших входных данных с плотными прогнозами, такими как сегментация экземпляров..

3. Помимо чисто трансформаторных моделей, предлагаемыеSOTR хорошо обобщает индуктивное смещение, не требуя предварительного обучения на больших наборах данных.. следовательно,SOTR легче применять, когда объем данных недостаточен.

4. В тесте MS Coco производительность SOTR достигает 40,2% производительности точки доступа с использованием магистрали ResNet-101-FPN, превосходя по точности большинство современных методов. Кроме того, SOTR показывает значительно лучшую производительность на объектах среднего размера (59,0%) и крупных объектах (73,0%) благодаря извлечению глобальной информации двойным преобразователем.

Для получения подробной информации, пожалуйста, прочитайте:ICCV2021 | SOTR: Сегментация объектов с помощью преобразователей

PnP-DETR

Документ: PnP-DETR: на пути к эффективному визуальному анализу с помощью трансформаторов

Код:GitHub.com/К Южно-Китайскому морю/PNP…

Задайте вопрос

** Применение сетей трансформаторов к картам признаков изображения может быть дорогостоящим в вычислительном отношении, в основном из-за операции внимания на длинных сглаженных векторах признаков. Эти признаки могут быть избыточными: **Помимо интересующего объекта, естественные изображения часто содержат огромные фоновые области, которые могут занимать значительную часть представления соответствующего признака, кроме того, некоторых векторов дискриминационных признаков может быть достаточно для обнаружения объектов.

Существующая работа по повышению эффективности преобразователей в основном сосредоточена на ускорении операций внимания, при этом мало учитывается пространственная избыточность, о которой говорилось выше..

Улучшить идеи

Чтобы устранить вышеуказанные ограничения, в документе разработан обучаемый модуль выборки опроса и объединения (PnP). ** Его цель — сжать карту признаков изображения в абстрактный набор признаков, состоящий из векторов точных признаков и небольшого количества векторов грубых признаков.

Детерминированная выборка векторов мелких объектов из входной карты объектов для захвата точной информации о переднем плане, которая имеет решающее значение для обнаружения объектов. Грубые векторы признаков объединяют информацию из фоновых местоположений, а результирующая контекстная информация помогает лучше идентифицировать и локализовать объекты. Затем преобразователь моделирует информационное взаимодействие в тонком и толстом пространстве признаков и получает конечный результат.

Поскольку набор абстракций намного короче, чем непосредственно сглаженная карта признаков изображения, вычисления преобразователя значительно сокращаются и в основном распределяются в местах переднего плана. Этот подход ортогонален методам повышения эффективности трансформаторов и может в дальнейшем комбинироваться с ними для получения более эффективных моделей.

Для получения подробной информации, пожалуйста, прочитайте:ICCV2021 | PnP-DETR: эффективный визуальный анализ с помощью трансформаторов

PiT

Диссертация: Переосмысление пространственных размеров преобразователей зрения

Код:GitHub.com/thatver-love/pi…

Задайте вопрос

CNN начинают с признаков большого пространственного размера и малого размера канала и постепенно увеличивают размер канала при уменьшении пространственного размера. Это пространственное преобразование необходимо из-за слоев, называемых пространственным объединением. Современные архитектуры CNN, включая AlexNet, ResNet и EfficientNet, следуют этому принципу проектирования.

Слой объединения тесно связан с размером рецептивного поля каждого слоя. Некоторые исследования показывают, чтоСлои пула способствуют выразительности и производительности сети.. Однако, в отличие от CNN,ViT не использует объединение слоев, а использует пространство одинакового размера во всех слоях..

Улучшить идеи

Во-первых, в документе проверяются преимущества объединения слоев в CNN. Эксперименты показывают, что уровень объединения демонстрирует возможности модели и производительность обобщения ResNet. Чтобы распространить преимущества объединения слоев на ViT, мы предлагаем визуальные преобразователи на основе объединения (PiT).

PiT представляет собой архитектуру преобразователя в сочетании с объединяющими слоями. Это может уменьшить размер пространства в структуре ViT, как в ResNet.

Наконец, чтобы проанализировать эффект объединения слоев в ViT, в статье измеряется коэффициент пространственного взаимодействия ViT, который аналогичен размеру рецептивного поля сверточных архитектур. В документе показано, что объединяющий слой играет роль контроля размера пространственных взаимодействий, которые происходят в слое само-внимания, подобно управлению рецептивным полем сверточных архитектур.

Для получения подробной информации, пожалуйста, прочитайте:ICCV2021 | Переосмысление пространственного измерения визуальных трансформеров

Swin Transformer

Диссертация: Swin Transformer: Hierarchical Vision Transformer с использованием Shifted Windows

Код:https://github. com/microsoft/Swin-Transformer

Задайте вопрос

В статье предпринимается попытка расширить применимость Transformer, чтобы он служил общей основой для компьютерного зрения, как это делается в НЛП и как CNN в видении.

В документе упоминается, что серьезная проблема перевода высокой эффективности преобразователей в языковой области в область видения может быть объяснена разницей между этими двумя модальностями. Одно из этих отличий связано с масштабом.

В отличие от токенов слов, которые являются фундаментальными элементами, обрабатываемыми в языковых преобразователях, визуальные элементы могут сильно различаться по масштабу, и этой проблеме уделялось внимание в таких задачах, как обнаружение объектов.В существующих моделях на основе трансформаторов все жетоны имеют фиксированный масштаб, эта функция не подходит для этих приложений машинного зрения..

Еще одно отличие состоит в том, что пиксели на изображении имеют гораздо большее разрешение по сравнению с текстом в текстовом абзаце. Существует множество задач на зрение, таких как семантическая сегментация, которые требуютДелать плотные прогнозы на уровне пикселей, что сложно для Трансформеров на изображениях с высоким разрешением, потому что вычислительная сложность его собственного внимания квадратична размеру изображения..

Улучшить идеи

Чтобы преодолеть эти проблемы, в документе предлагается общая основа Transformer, называемая Swin Transformer, которая создает иерархические карты признаков, а вычислительная сложность масштабируется линейно с размером изображения.

Как показано на рисунке 1 (А),Swin Transformer строит иерархическое представление, начиная с небольших блоков (серые контуры) и постепенно объединяя соседние блоки в более глубокие слои Transformer..

Благодаря этим многоуровневым картам признаков модель Swin Transformer может удобно использовать передовые методы плотного прогнозирования, такие как Feature Pyramid Network (FPN) или U-Net. Линейная вычислительная сложность достигается за счет локального вычисления собственного внимания в неперекрывающихся окнах сегментированного изображения (красный контур).Количество патчей в каждом окне фиксировано, поэтому сложность масштабируется линейно с размером изображения..

Эти преимущества делают Swin Transformer подходящим в качестве общей основы для различных задач технического зрения, в отличие от предыдущих архитектур на основе Transformer, которые генерируют карты объектов с одним разрешением и страдают квадратичной сложностью.

Ключевым элементом дизайна Swin Transformer является перемещение оконных перегородок между последовательными слоями внутреннего внимания., как показано на рисунке 2.Перемещающиеся окна соединяют окна предыдущего слоя, обеспечивая связь между ними, что значительно расширяет возможности моделирования..

Эта стратегия также эффективна с точки зрения фактической задержки: все исправления запросов в окне используют один и тот же набор ключей, что упрощает доступ к памяти на аппаратном уровне. Напротив, более ранние методы самоконтроля на основе скользящего окна страдают низкой задержкой на обычном оборудовании из-за разных наборов ключей для разных пикселей запроса.

Эксперименты показывают, что предлагаемый метод сдвинутого окна имеет меньшую задержку, чем метод скользящего окна, но аналогичен по возможностям моделирования. Оказывается, подход со сдвинутым окном полезен и для полных архитектур MLP.

Для получения подробной информации, пожалуйста, прочитайте:ICCV2021 | Swin Transformer: иерархический визуальный преобразователь, использующий сдвинутые окна

Для трансформатора в видео основная идея улучшения состоит в том, чтобы разделить патчи в пространстве и во времени для привлечения внимания. Перечислите один здесь.

TimeSformer

Бумага: Достаточно ли пространственно-временного внимания для понимания видео?

Код:GitHub.com/баклановые стоки/…

Задайте вопрос

Понимание видео имеет много общего с НЛП. Во-первых, и видео, и предложения являются последовательными, более того, слово может быть понято только по отношению к другим словам в предложении, а сегмент в видеодействии также должен быть связан с контекстом видео. Поэтому в статье ожидается, что эта модель дальнодействующего внутреннего внимания в НЛП также может хорошо работать в видеомоделях.

В поле видео 2D или 3D свертка является основной операцией для извлечения пространственно-временных признаков, но одна из очевидных проблем операции свертки заключается в том, что рецептивное поле ограничено.Чтобы получить глобальное рецептивное поле, необходимо много слоев слоев свертки. Пути распространения информации у них относительно длинные. Операция внутреннего внимания может легко получить глобальное рецептивное поле и зафиксировать локальные и долгосрочные зависимости.

Другая проблема сверточных операций заключается в том, что они ограничены памятью, особенно в области видео, что часто требует компромисса между кадрами высокого разрешения и кадрами дальнего действия. В последние годы работа некоторых исследователей показала, что Transformer может получить более быстрое обучение и вывод, чем CNN, поэтому при том же вычислительном бюджете Transformer может использовать большую способность к обучению.

Стандартное внутреннее внимание необходимо для вычисления сходства между всеми маркерами Этот метод требует большого объема вычислений, поэтому необходимо рассмотреть, как использовать собственное внимание для обработки блоков изображения. В статье сравниваются несколько подходов в этом отношении: совместное пространственно-временное внимание, разреженное локальное глобальное внимание и осевое внимание. Общим моментом этих методов является использование метода ViT для блокировки изображения, а разница между ними заключается в том, как использовать внимание к себе для обработки этих блоков. В статье предполагается, что метод разделенного внимания имеет наилучшие результаты..

Улучшить идеи

Для получения подробной информации, пожалуйста, прочитайте:CVPR2021 | TimeSformer — пространственно-временная модель внимания для понимания видео

4. Добавить декодер

Бумага: Сквозное обнаружение объектов с помощью трансформаторов

Код:GitHub.com/Facebook Рес…

DETR, кажется, не объясняет, почему разработана структура, а только говорит о том, что должна быть сделана модель сквозного трансформатора. Поэтому здесь представлена только его структура.

Добро пожаловать в техническое руководство CV для общедоступной учетной записи, в котором основное внимание уделяется техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.

Предисловие

Обзор ViT

Улучшить идеи

1. Блокировка улучшений

2. Отражение и улучшение кодирования относительного положения

3.Улучшения кодировщика

4. Добавить декодер

Похожие статьи для чтения