Предисловие
ViT изучает взаимосвязь между этими токенами, просто сегментируя изображение на токены фиксированной длины и используя преобразователь. Токенизация может нарушить структуру объекта, назначить сетки неинтересным областям, таким как фон, и ввести отвлекающие сигналы.
Чтобы облегчить вышеупомянутые проблемы, в этой статье предлагается итеративная стратегия последовательной выборки для обнаружения дискриминационных областей. На каждой итерации вложение текущего шага выборки подается на уровень кодирования преобразователя, и прогнозируется набор смещений выборки для обновления позиции выборки для следующего шага. Асимптотическая выборка дифференцируема. В сочетании с визуальным преобразователем полученная сеть PS-ViT может адаптивно запоминать, где искать.
PS-ViT одновременно эффективен и эффективен. При обучении с нуля в ImageNet PS-VIT достигает точности TOP-1 на 3,8% выше, чем обычный VIT, с примерно в 4 раза меньшим количеством параметров и в 10 раз меньшим числом FLOP.
Эта статья взята из технического руководства по публичному аккаунту CV.Серия обмена бумагой
Обратите внимание на техническое руководство по общедоступной учетной записи CV, уделив особое внимание техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.
Диссертация: Vision Transformer с прогрессивным сэмплированием
Код:GitHub.com/the удачливее/PS-vi…
Background
Трансформеры изначально были приспособлены для обработки последовательностей среднего размера и имели квадратичную вычислительную сложность. длина последовательности. Их нельзя использовать напрямую для обработки изображений с большим количеством пикселей.
Чтобы решить проблему вычислительной сложности,ViTИспользуется наивная схема токенизации, котораяРазделите изображение на серию равномерно расположенных участков, которые линейно проецируются на токены. Таким образом, изображения преобразуются в сотни визуальных токенов., эти визуальные маркеры передаются в стек слоев кодирования преобразователя для классификации. ViT достигает хороших результатов, особенно при предварительном обучении на крупномасштабных наборах данных, что доказывает, что полностью трансформерная архитектура является многообещающей альтернативой для задач машинного зрения. Однако ограничения этой схемы токенизации очевидны.
Во-первых,Жесткая сегментация может отделить некоторые сильно коррелированные области, которые должны быть смоделированы с одним и тем же набором параметров, что разрушает присущую объекту структуру и делает входные патчи менее информативными.. На рисунке видно, что голова кошки разделена на несколько частей, что приводит к проблеме распознавания, основанной только на одной части. Второй,токены размещаются на регулярной сетке независимо от основного содержимого изображения. На рисунке видно, что большая часть сеток сфокусирована на неинтересном фоне, из-за чего интересующие объекты переднего плана могут быть заглушены мешающим сигналом.
Инновационные идеи
зрительная система человекаОрганизуйте визуальную информацию совершенно иначе, чем обрабатывая сразу всю сцену без разбора. Вместо этого этоПостепенно и выборочно фокусируйте внимание на интересных частях визуального пространства, когда и где это необходимо, и игнорируйте неинтересные части, комбинируя информацию от разных взглядов, чтобы понять сцену с течением времени..
Вдохновленный описанным выше процессом,бумагапредложилНовый модуль Progressive Sampling на основе Transformer, который точно узнает, где смотреть изображения, чтобы облегчить проблемы, вызванные простой схемой токенизации в ViT..
Модуль, предложенный в документе, не производит выборку из фиксированной позиции, а обновляет позицию выборки итеративно.. Как показано, на каждой итерации маркеры текущего шага выборки передаются на уровень кодирования преобразователя, и прогнозируется набор смещений выборки для обновления позиции выборки для следующего шага. Этот механизм использует способность преобразователя собирать глобальную информацию, оценивая смещение до интересующей области путем объединения локального контекста и положения текущих токенов. Таким образом, внимание шаг за шагом фокусируется на различимых областях изображения, точно так же, как человеческое зрение.
Methods
Progressive Sampling
ViT регулярно делит изображение на блоки 16×16, которые линейно проецируются на набор маркеров, независимо от содержательной важности областей изображения и общей структуры объектов. Чтобы лучше сосредоточиться на интересующей области изображения и облегчить проблему повреждения структуры изображения, предлагается новая модель прогрессивной выборки. Благодаря своей дифференцируемости он адаптивно управляется последующими задачами классификации изображений на основе преобразователя зрения.
Архитектура модуля прогрессивной выборки
На каждой итерации, учитывая местоположение выборки Pt и карту признаков F, начальные токены T't и карту признаков F выбираются и сравниваются с позиционным кодированием Pt, сгенерированным на основе pt, и выходными токенами Tt-1 из элемента предыдущей итерации. Выполняется пошаговое сложение, которое затем передается на уровень кодирования для прогнозирования маркеров Tt текущей итерации. Через основанную на Tt матрицу смещения прогнозирования полносвязного слоя добавляются Tt и Pt для получения позиции выборки Pt+1 для следующей итерации. Вышеупомянутый процесс повторяется N раз.
На каждой итерации позиция выборки обновляется путем добавления позиции выборки к вектору смещения предыдущей итерации. Pt+1 = Pt + Ot, где Ot представляет матрицу положения выборки и матрицу смещения, предсказанную на итерации t. Для первой итерации мы инициализируем p1 равномерными позициями, как мы это делали в ViT. В частности, i-я позиция задается выражением
где π и π отображают индексы положения в индексы строк и столбцов соответственно. Sh и Sw — их осевой и осевой шаг соответственно. Затем исходные токены отбираются в позиции выборки на карте входных объектов, как показано ниже.
Поскольку элементы Pt являются десятичными, выборка достигается операцией билинейной интерполяции, которая является дифференцируемой. Введите карту объектов F и точку отбора проб Pt. Маркеры начальной выборки, маркеры вывода предыдущей итерации и позиционное кодирование текущей позиции выборки дополнительно добавляются поэлементно перед подачей на уровень кодирования для получения маркеров вывода текущей итерации.
Спроецируйте нормализованные абсолютные координаты местоположений выборки в пространство вложения как вложение местоположения. Наконец, предскажите смещение позиции выборки для следующей итерации в дополнение к предыдущей итерации, как показано ниже.
где Mt — обучаемое линейное преобразование, используемое для предсказания матрицы смещения выборки.
Overall Architecture
Общая архитектура прогрессивной выборки Vision Transformer (PS-VIT)
Для входного изображения сначала извлекается его карта признаков F. Затем маркеры Ti постепенно и итеративно отбираются в адаптивной позиции pi в модуле прогрессивной выборки. Окончательные выходные маркеры TN модуля прогрессивной выборки заполняются классификационными маркерами Tcls и далее подаются в модуль преобразователя зрения для уточнения Tcls, которые окончательно классифицируются в модуле классификации.
Conclusion
Прогрессивная выборка, предложенная в документе, различима и может быть легко подключена к ViT вместо жесткого разделения для создания сквозного преобразователя зрения, а сеть прогрессивной выборки, называемая PSViT, используется для создания сквозного преобразователя зрения. . Благодаря обучению, ориентированному на выполнение задач, PS-ViT имеет тенденцию выбирать области объекта, связанные с семантической структурой. Кроме того, он больше фокусируется на объектах переднего плана и меньше на размытом фоне, чем простая токенизация.
1. Предлагаемый PS-VIT превосходит методы SOTA на основе трансформаторов тока при обучении с нуля в ImageNet. В частности, он достигает 82,3% точности TOP1 на ImageNet, что выше, чем у Deit, всего около 1/4 параметров и 1/2 FLOP. Как показано, в документе отмечается, что PS-ViT значительно лучше, быстрее и эффективнее по параметрам, чем сети SOTA на основе трансформаторов ViT и Deit.
2. Сравнение с другими SOTA
3. Сравните эффективность сетей PS-VIT и SOTA по флопам и скорости.
4. Визуализация мест отбора проб в модуле последовательного отбора проб. Начальная точка стрелки — это начальное положение выборки (P1), а конечная точка стрелки — конечное положение выборки (P4).
Добро пожаловать в публичный аккаунтТехническое руководство по резюме, уделяя особое внимание техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.
Другие статьи
MobileVIT: легкий визуальный трансформер + мобильное развертывание
ICCV2021 | Swin Transformer: иерархический визуальный преобразователь, использующий сдвинутые окна
ICCV2021 | Градиентная нормализация для GAN
ICCV2021 | SOTR: Сегментация объектов с помощью преобразователей
ICCV2021 | PnP-DETR: эффективный визуальный анализ с помощью трансформаторов
ICCV2021 | Отражение и улучшение кодирования относительного положения в Vision Transformer
ICCV2021 | MicroNet: Улучшение распознавания изображений с очень низкими значениями FLOP
ICCV2021 | Переосмысление пространственного измерения визуальных трансформеров
CVPR2021 | TransCenter: Преобразователи для алгоритмов многообъектного отслеживания
CVPR2021 | Обнаружение объектов в открытом мире
CVPR2021 | TimeSformer — пространственно-временная модель внимания для понимания видео
CVPR2021 | Эффективный модуль внимания сегментации пирамиды PSA
CVPR2021 | Transformer для сквозной сегментации экземпляров видео
Серия Classic Paper | Переосмысление предварительного обучения в ImageNet
Классическая серия статей | Дефекты групповой нормализации и BN
Классическая серия документов | Обнаружение целей - дефекты CornerNet и анкерных ящиков
2021 - Обзор многообъектного отслеживания в видеонаблюдении
Всестороннее понимание якорей в обнаружении целей | Резюме сегментации экземпляра Резюме Полное издание
Обзор одноэтапной сегментации экземпляров | Некоторые проблемы, идеи и решения обнаружения малоразмерных целей
Резюме функции потерь регрессии при обнаружении цели | Краткое изложение распространенных методов обнаружения малых целей
Обзор визуального преобразователя | Обзор последних исследований по обнаружению малоразмерных целей в 2021 году
Обзор сиамской сети | Обзор оценки позы | Обзор семантической сегментации