Предисловие:
Применение трансформеров для изображений постепенно расширяется.Основной метод заключается в том, чтобы разделить изображение на блоки, чтобы сформировать последовательность блоков, и просто бросить блоки прямо в трансформер. Однако этот подход игнорирует внутреннюю структурную информацию между блоками.По этой причине в этой статье предлагается модель преобразователя, которая использует как информацию о последовательности внутри блока, так и информацию о последовательности между блоками, которая называется Transformer-iN-Transformer, или просто называется Transformer-iN-Transformer.TNT.
смысл
Модель TNT делит изображение на последовательность блоков, и каждый блок преобразуется в последовательность пикселей. Встраивание патчей и встраивание пикселей можно получить из блоков и пикселей после линейного преобразования. Поместите эти два в сложенные блоки TNT, чтобы учиться.
Он состоит из внешнего блока трансформатора и внутреннего блока трансформатора в блоке TNT.
Внешний блок преобразования отвечает за моделирование глобальной корреляции при встраивании патчей, а внутренний блок отвечает за моделирование локальной структурной информации между вложениями пикселей. Встраивание патча объединяет локальную информацию путем линейного сопоставления встраивания пикселей с пространством внедрения патча. Для сохранения пространственной информации вводится позиционное кодирование. Наконец, токен класса используется для классификации посредством MLP.
С помощью предлагаемой модели TNT можно смоделировать глобальную и локальную структурную информацию, а также улучшить возможность представления признаков. С точки зрения точности и вычислительной сложности, TNT имеет отличную производительность для ImageNet и последующих задач. Например, TNT-S достигает 81,3% в рейтинге ImageNet top-1 всего с 5,2 млрд FLOP, что на 1,5% выше, чем у DeiT.
некоторые детали
Сравните этот рисунок с несколькими формулами, которые нужно ввести.
MSA — это многоголовое самовнимание.
MLP — это многослойный персептрон.
LN — нормализация слоя.
Век сплющен.
Знаки «плюс» указывают на остаточные соединения.
Первые две формулы представляют собой внутренний блок преобразователя, который обрабатывает информацию внутри блока, третья формула предназначена для линейного отображения информации внутри блока в пространство встраивания патча, а последние две формулы представляют собой внешний блок преобразователя, который обрабатывает информацию. между блоками.
Метода кодирования положения достаточно, чтобы увидеть следующий рисунок.
Параметры модели и расчеты показаны в следующей таблице:
Conclusion
Недавно все технические резюме официального аккаунта (техническое руководство CV) были упакованы в pdf, который можно получить, ответив на ключевое слово «техническое резюме» в официальном аккаунте.
Добро пожаловать в техническое руководство по общедоступной учетной записи CV, в котором основное внимание уделяется техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.
Другие статьи
Краткое изложение методов недообучения и переобучения
Краткое изложение общих идей бумажных инноваций
Резюме методов эффективного чтения англоязычной литературы по направлению CV
Обзор непродолжительного обучения компьютерному зрению
Краткий обзор дистилляции знаний
Оптимизировать скорость чтения видео OpenCV
Краткое изложение методов функции потерь
Техническое резюме механизма внимания
Краткое изложение технологии пирамиды функций
Краткое изложение технологии объединения
Краткое изложение методов увеличения данных
Резюме эволюции структуры CNN (1) Классическая модель
Резюме эволюции структуры CNN (2) Облегченная модель
Резюме эволюции структуры CNN (3) Принципы проектирования
Как увидеть будущее направление компьютерного зрения
Краткое изложение технологии визуализации CNN (1) - визуализация карты функций
Краткое изложение технологии визуализации CNN (2) - визуализация ядра свертки
Краткое изложение технологии визуализации CNN (3) - визуализация класса
Краткое описание технологии визуализации CNN (4) - инструменты и проекты визуализации