Интенсивное чтение статьи: "Флоренция: новая базовая модель компьютерного зрения"

1. Точка инноваций

Существующие модели на основе зрения, такие как CLIP (Radford et al., 2021), Align (Jia et al., 2021) и Wu Dao 2.0 (Wud), в основномСосредоточьтесь на сопоставлении изображений и текстовых представлений с кросс-модальным обменомпредставление, и мы вводим новую базовую модель компьютерного зрения Florence, которую можно получить из:

to expand the representations from coarse (scene) to fine (object)

from static (images) to dynamic (videos)

from RGB to multiple modalities (caption, depth)

Грубая (сцена) может быть расширена до (точных) объектов
Масштабирование от статического (изображение) до динамического (видео)
Расширение мультимодальности (название, глубина) из RGB

2. Заключение

Florence успешно расширила его до различных задач в пространстве, времени и модальностях с большой мобильностью и добилась новых результатов SOTA в широком диапазоне тестов зрения.

3. Метод реализации

Общая архитектура Флоренции состоит изуправление данными,Предварительное обучение модели,адаптация задачииБазовая архитектура обучениясостав, как показано на следующем рисунке:

1.управление данными: Набор данных из 900 миллионов пар изображение-текст (FLD-900M) создан и исправлен uniCL.

Окончательная форма набора данных FLD-900M состоит из 900 млн изображений и 900 млн текста в произвольной форме (от одного слова, фразы до предложения), 9,7 млн уникальных запросов и в общей сложности 7,5 млрд токенов. Потому что у картинки может быть несколько описаний, и по умолчанию картинке соответствует только один текст, и эта пара идентифицируется как положительный класс, а остальные - как отрицательные, то есть:
Изображение image1, описанное как text1, (image1:text1) определяется как положительный класс, а другие, такие как (image1,text2), (image11,text3)... определяются как отрицательный класс. Но в реальной жизни изображение может иметь несколько описаний, например, изображение: собака, текст1: собака, текст2: милая собака. Таким образом, uniCL устраняет это. Сделайте (image1, text1) положительным классом и (image1, text2) также положительным классом.

2.Предварительное обучение модели: Предварительно обученная модель на основе преобразователя, в которой используется структура с двумя башнями: 12-уровневый преобразователь в качестве языкового кодировщика (аналогичный CLIP) и многоуровневый визуальный преобразователь (ViT) в качестве кодировщика изображений, преобразователь CoSwin (будет добавил.. .)

В качестве языкового кодировщика используется 12-слойный преобразователь. Используйте визуальный преобразователь в качестве кодировщика изображения, чтобы стать преобразователем CoSwin, то есть заменить модули встраивания патчей и слияния патчей в преобразователе Swin на сверточный слой встраивания. И на основе кодировщика изображения и языкового кодировщика добавляются два слоя линейной проекции, чтобы соответствовать размеру изображения и языковых характеристик.

адаптация задачи: используется адаптер динамической головы для пространственного измерения, адаптер CoSwin для измерения времени и адаптер METER для модального измерения.

На основе иерархической структуры кодировщика изображений CoSwin-H можно получать пирамиды признаков различных масштабов, причем масштабы пирамид признаков можно каскадировать, уменьшать или увеличивать.Идея адаптера динамической головы состоит в том, чтобы развернуть три вида внимания в ортогональных измерениях (H, W, C) тензора, а именно в горизонтальном направлении, пространственном направлении и направлении канала.
Адаптер METER в основном предназначен для достижения расширенного мелкозернистого языкового представления, и идея его реализации заключается в следующем.заключается в использовании предварительно обученных RoBERT в качестве языкового кодировщика и CoSwin в качестве кодировщика изображений, а затем изучении контекстных представлений с использованием блоков совместного внимания.Блок совместного внимания состоит из блока самостоятельного внимания, блока перекрестного внимания и сети прямой связи.
По сравнению с адаптером CoSwin адаптер распознавания видео (VideoCoSwinAdapter) претерпел лишь незначительные изменения.

Преобразуйте слой токенизации изображения в слой токенизации видео, то есть замените 2D-сверточный слой CoSwin на 3D-сверточный слой.
videoCoSwinAdapter использует оператор объединения патчей 3D свертки
Замена 2D-окна сдвига на 3D-окна локального сдвига в слое самоконтроля CoSwin.
Примите стратегию динамического размера окна, используя меньшее окно смены в начале и большее окно смены в конце.

инфраструктура обучения: Чтобы уменьшить объем вычислений и потребление памяти, автор интегрирует различные ключевые технологии, такие как ZeRO, контрольные точки активации, обучение смешанной точности, градиентное кэширование и другие технологии.

ZeRO принимает) для разделения состояний оптимизатора, градиентов и параметров между графическими процессорами.
Активировать контрольную точку: перезапустить прямое распространение во время обратного прохода
Смешанная точность: обучение различным операциям с разной числовой точностью.
Gradient Cache: замена больших пакетов точности меньшими подпакетами для обучения.

Производительность модели Флоренции, приведенная в последней статье для каждого набора данных:

Воспроизведение без разрешения запрещено.......