Предлагаем вам прочитать Paper丨Проанализируйте оставшиеся проблемы ViT и соответствующие решения

Резюме: В соответствии со статусом-кво ViT, проанализируйте оставшиеся проблемы ViT и соответствующие решения, а также обобщите соответствующие статьи и идеи.

Эта статья опубликована в сообществе Huawei Cloud Community "[ViT] Резюме связанных документов о проблемах, с которыми сталкивается Vision Transformer, и о том, как их преодолеть в настоящее время.", Автор: Су Дао.

Сначала взгляните на документ ViT на уровне предков:

An image is worth 16x16 words: Transformers for image recognition at scale

Адрес бумаги:АР Вест V.org/ABS/2010.11…

Он использует полную структуру Transformer, чтобы разделить область изображения на маленькие квадраты, как Patch в качестве входных данных. Изображение слева представляет собой общую архитектуру ViT, а изображение справа представляет собой форму каждого блока в Transformer Encoder. Мы видим, что он в основном представляет собой структуру оригинального Трансформера, за исключением того, что он ставит норму впереди Некоторые статьи показывают, что легче тренироваться, если норма впереди.

С помощью Transformer можно получить глобальную информацию о картинке на каждом слое, но он не идеален, у него есть следующие недостатки:

1. Большой спрос на данные:Способность к индуктивному смещению собственного внимания слабее, чем у CNN. Как сказать, индуктивное смещение заключается в том, что модель делает некоторые предположения о данных, с которыми она не сталкивалась.CNN имеет предположение о пространственной инвариантности, поэтому он может использовать вес для обработки всей карты объектов со скользящим окном, в то время как RNN имеет предположение об инвариантности во времени . Но Само-Внимание не имеет этих предположений, поэтому ему нужно больше данных для автоматического изучения этих предположений, но это имеет то преимущество, что предположения, которые могут быть изучены, будут более гибкими.

Для этой задачи мы можем использовать сеть CNN в качестве сети Учителя и добавить потери при дистилляции, чтобы помочь ему учиться.

Суть Patch Embedding заключается в большой сумме сверток с ядром свертки и скользящим размером шага Patch size.Если ядро свертки с Vit равно 16, то оно определенно недостаточно стабильно, поэтому в некоторых более поздних исследованиях будет использоваться несколько сверток и комбинация объединения или просто первые несколько блоков заменяются остаточными блоками.

** 2. Большой объем вычислений: ** Вычислительная сложность связана с квадратом токена. Если входная карта объектов представляет собой карту объектов 56 * 56, она будет включать матричную операцию длиной и шириной 3000+, что требует большого объема вычислений.В процессе расчета Transformer количество жетонов и скрытый размер остаются неизменными, поэтому позже исследователи приняли несколько методов для решения проблемы большого объема вычислений. Обратитесь к структуре реснета и используйте структуру пирамиды, чем больше количество токенов, тем меньше количество токенов; используйте локальное окно sa, рассмотрите часть карты характеристик для sa, а затем найдите способ взаимодействия с этими локальная информация; используйте свертку вместо fc для уменьшения параметров; В процессе генерации Q, K и V карты признаков или токены K и V объединяются для уменьшения вычислительной сложности.

**3.Количество сложенных слоев ограничено: **Присутствует проблема чрезмерного сглаживания, сходство между разными блоками увеличивается с углублением модели, сходство между разными токенами увеличивается с углублением модели. Основное решение состоит в том, чтобы увеличить скрытый размер, но увеличение параметров этого метода также будет большим; до и после софтмекса карты внимания выполняется линейное преобразование в измерении головы для увеличения информационного взаимодействия и увеличения разнообразия внимания. карту; Увеличьте разнообразие функций или увеличьте срок потери сходства штрафа.

**4. Сама модель не может кодировать позицию: ** Тогда требуются различные коды позиций. Ниже перечислены некоторые коды позиций, в том числе фиксированные и обучаемые, абсолютные и относительные, а также использование объема Свойства продукта кодируются с помощью сверток как позиционный.

Подробнее см. в таблице ниже.

Вы можете проверить в таблице ниже соответствующие документы, относящиеся к вышеуказанным пунктам улучшения:

Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~