Это первый день моего участия в первом испытании обновлений 2022. Подробную информацию о мероприятии см.:Вызов первого обновления 2022 г.
Deep Learning Xiaobai впервые пишет заметки по чтению диссертации.Может быть много ошибок и упущений.Пожалуйста, простите меня.
Я с нетерпением жду прогресса в процессе непрерывного вывода и обмена с вами более ценным контентом.
Оригинальная ссылка:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
Motivation
- Прошлые визуальные преобразователи, такие как
ViT
Выполняются только задачи классификации, без обнаружения и сегментации и т. д.Swin Transformer
Доказано, что Transformer можно использовать в качестве универсальной магистральной сети компьютерного зрения. - Трансформатор используется в CV двумя способами:
- Проблема масштаба: разница в размерах одного и того же визуального объекта на разных изображениях может быть очень большой, и этой проблемы в НЛП не существует;
- Разрешение изображения слишком велико: если пиксели используются непосредственно в качестве входной последовательности, длина слишком велика.
Related Works
-
ViT
Размер каждого слоя токена составляет 16-кратную скорость понижения дискретизации, что может обеспечить возможность глобального моделирования через глобальную SA, но понимание многомасштабных функций слабое, и он не подходит для решения задач плотного распознавания; -
ViT
Самостоятельное внимание всегда выполняется на всем изображении (глобальное моделирование), и сложность возрастает пропорционально размеру изображения.
Ideas
переместить окно
- Иерархическая структура может предоставлять информацию о функциях в различных масштабах, что может быть лучше применено к последующим задачам;
- SA вычисляется в маленьком окне, и вычислительная сложность растет линейно с размером изображения, а не прямоугольно;
- Благодаря движению окна происходит взаимодействие между двумя соседними окнами, и между верхним и нижним слоями может быть перекрестное оконное соединение для достижения замаскированных возможностей глобального моделирования.
Model
Структура модели
- Патч-раздел: сначала введите ввод впатч, напримеризображение, после первого слоя размер становится.
- Этап 1:
- Сначала пройдите слой Linear Embedding, чтобы преобразовать патчи изображения во входные данные преобразователя,будет растянут на длинуЛинейная последовательность , а по количеству каналов, как показано, константаЗависит от ограничения трансформатора на входе, здесь, поэтому после линейного встраивания размер ввода становится;
- Следует отметить, что этоМатрица напрямую не используется как вход блока Swin Transformer, но исходя из идеи перемещения окна в этой статье, она делится наРазмер окна, длина каждого патча только;
- Сам трансформатор не меняет размерность входа.
- Этап 2: слияние патчей предназначено для дальнейшей деформации выходного сигнала преобразователя на этапе 1, и последняя операция чем-то похожа на CNN. Слияние патчей — это повышение частоты дискретизации предыдущего вывода,разделить на четыре, и объединены в, после другогоФильтр (свертка) , дает.
- Stage3 и stage4 такие же, как и stage2, оба уменьшают размер тензора (каждый раз уменьшают на 1/4), чтобы получить больше каналов (увеличивают в 4 раза). Чтобы соответствовать CNN, то есть после операции объединения количество каналов удваивается, а не в 4 раза по сравнению с исходным, поэтому использованиеЯдро свертки изменяет количество каналов с 4x на 2x. После окончания этапа 4 размер вывода равен.
окно
Что касается вычислительной сложности, автор оценивает вычислительную сложность глобального само-внимания и само-внимания на основе окна, как показано на рисунке, последнее часто намного ниже, чем первое.
Однако, если имеется только оконный механизм, самостоятельный поиск между окнами невозможен, и глобальное моделирование не может быть выполнено. Поэтому вводится мобильное окно, а в верхнем и нижнем слоях вводится механизм смещенных окон, который может реализовать связь между окнами.
В блоке Swin Transformer этой статьи сначала выполните многоголовое самовнимание на основе окна (W-MSA), а затем выполните многоголовое самовнимание на основе движущегося окна (SW-MSA), как показано на рис. фигура.
Experiments
- Задача классификации изображений в ImageNet
- Обнаружение объектов на COCO
- Семантическая сегментация на ADE20K
- Эксперименты по абляции (изучение влияния движущихся окон и кодирования абсолютного/относительного положения на производительность модели)
Limitations
В заключении статьи упоминается, что само-внимание, основанное на смещенных окнах, как ключевая идея этой статьи, может быть использовано только в поле изображения, но не в поле НЛП. На самом деле, по сравнению сViT
,Swin Transformer
Хотя он дает лучшие результаты, последний более склонен к работе, специально разработанной для изображений, и использует некоторые предварительные знания в области зрения, поэтому разумно улучшить эффект. иViT
Он заключается в непосредственном использовании самого примитивного Трансформера, и он хорошо работает как в CV, так и в области НЛП. Единая модель способствует совместному развитию двух областей, чтоSwin Transformer
текущие ограничения, и пустьSwin Transformer
Его также можно использовать в области НЛП, что также является одним из направлений, в котором автор надеется приложить дальнейшие усилия.