CVPR2021 | Трансформатор в трансформере, предложенный Huawei Noah Lab

Предисловие:

Применение трансформеров для изображений постепенно расширяется.Основной метод заключается в том, чтобы разделить изображение на блоки, чтобы сформировать последовательность блоков, и просто бросить блоки прямо в трансформер. Однако этот подход игнорирует внутреннюю структурную информацию между блоками.По этой причине в этой статье предлагается модель преобразователя, которая использует как информацию о последовательности внутри блока, так и информацию о последовательности между блоками, которая называется Transformer-iN-Transformer, или просто называется Transformer-iN-Transformer.TNT.

смысл

Модель TNT делит изображение на последовательность блоков, и каждый блок преобразуется в последовательность пикселей. Встраивание патчей и встраивание пикселей можно получить из блоков и пикселей после линейного преобразования. Поместите эти два в сложенные блоки TNT, чтобы учиться.

Он состоит из внешнего блока трансформатора и внутреннего блока трансформатора в блоке TNT.

Внешний блок преобразования отвечает за моделирование глобальной корреляции при встраивании патчей, а внутренний блок отвечает за моделирование локальной структурной информации между вложениями пикселей. Встраивание патча объединяет локальную информацию путем линейного сопоставления встраивания пикселей с пространством внедрения патча. Для сохранения пространственной информации вводится позиционное кодирование. Наконец, токен класса используется для классификации посредством MLP.

С помощью предлагаемой модели TNT можно смоделировать глобальную и локальную структурную информацию, а также улучшить возможность представления признаков. С точки зрения точности и вычислительной сложности, TNT имеет отличную производительность для ImageNet и последующих задач. Например, TNT-S достигает 81,3% в рейтинге ImageNet top-1 всего с 5,2 млрд FLOP, что на 1,5% выше, чем у DeiT.

некоторые детали

Сравните этот рисунок с несколькими формулами, которые нужно ввести.

MSA — это многоголовое самовнимание.

MLP — это многослойный персептрон.

LN — нормализация слоя.

Век сплющен.

Знаки «плюс» указывают на остаточные соединения.

Первые две формулы представляют собой внутренний блок преобразователя, который обрабатывает информацию внутри блока, третья формула предназначена для линейного отображения информации внутри блока в пространство встраивания патча, а последние две формулы представляют собой внешний блок преобразователя, который обрабатывает информацию. между блоками.

Метода кодирования положения достаточно, чтобы увидеть следующий рисунок.

Параметры модели и расчеты показаны в следующей таблице:

Conclusion

Недавно все технические резюме официального аккаунта (техническое руководство CV) были упакованы в pdf, который можно получить, ответив на ключевое слово «техническое резюме» в официальном аккаунте.

Добро пожаловать в техническое руководство по общедоступной учетной записи CV, в котором основное внимание уделяется техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.

Другие статьи

Краткое изложение терминологии компьютерного зрения (1) Создание системы знаний для компьютерного зрения

Краткое изложение методов недообучения и переобучения

Резюме методов нормализации

Краткое изложение общих идей бумажных инноваций

Резюме методов эффективного чтения англоязычной литературы по направлению CV

Обзор непродолжительного обучения компьютерному зрению

Краткий обзор дистилляции знаний

Оптимизировать скорость чтения видео OpenCV

Сводка NMS

Краткое изложение методов функции потерь

Техническое резюме механизма внимания