1. Точка инноваций
Существующие модели на основе зрения, такие как CLIP (Radford et al., 2021), Align (Jia et al., 2021) и Wu Dao 2.0 (Wud), в основномСосредоточьтесь на сопоставлении изображений и текстовых представлений с кросс-модальным обменомпредставление, и мы вводим новую базовую модель компьютерного зрения Florence, которую можно получить из:
- to expand the representations from coarse (scene) to fine (object)
- from static (images) to dynamic (videos)
- from RGB to multiple modalities (caption, depth)
- Грубая (сцена) может быть расширена до (точных) объектов
- Масштабирование от статического (изображение) до динамического (видео)
- Расширение мультимодальности (название, глубина) из RGB
2. Заключение
Florence успешно расширила его до различных задач в пространстве, времени и модальностях с большой мобильностью и добилась новых результатов SOTA в широком диапазоне тестов зрения.
3. Метод реализации
Общая архитектура Флоренции состоит изуправление данными,Предварительное обучение модели,адаптация задачииБазовая архитектура обучениясостав, как показано на следующем рисунке:
1.управление данными: Набор данных из 900 миллионов пар изображение-текст (FLD-900M) создан и исправлен uniCL.
Окончательная форма набора данных FLD-900M состоит из 900 млн изображений и 900 млн текста в произвольной форме (от одного слова, фразы до предложения), 9,7 млн уникальных запросов и в общей сложности 7,5 млрд токенов.
Потому что у картинки может быть несколько описаний, и по умолчанию картинке соответствует только один текст, и эта пара идентифицируется как положительный класс, а остальные - как отрицательные, то есть:
Изображение image1, описанное как text1, (image1:text1) определяется как положительный класс, а другие, такие как (image1,text2), (image11,text3)... определяются как отрицательный класс.
Но в реальной жизни изображение может иметь несколько описаний, например, изображение: собака, текст1: собака, текст2: милая собака. Таким образом, uniCL устраняет это. Сделайте (image1, text1) положительным классом и (image1, text2) также положительным классом.
2.Предварительное обучение модели: Предварительно обученная модель на основе преобразователя, в которой используется структура с двумя башнями: 12-уровневый преобразователь в качестве языкового кодировщика (аналогичный CLIP) и многоуровневый визуальный преобразователь (ViT) в качестве кодировщика изображений, преобразователь CoSwin (будет добавил.. .)
В качестве языкового кодировщика используется 12-слойный преобразователь. Используйте визуальный преобразователь в качестве кодировщика изображения, чтобы стать преобразователем CoSwin, то есть заменить модули встраивания патчей и слияния патчей в преобразователе Swin на сверточный слой встраивания. И на основе кодировщика изображения и языкового кодировщика добавляются два слоя линейной проекции, чтобы соответствовать размеру изображения и языковых характеристик.
- адаптация задачи: используется адаптер динамической головы для пространственного измерения, адаптер CoSwin для измерения времени и адаптер METER для модального измерения.
На основе иерархической структуры кодировщика изображений CoSwin-H можно получать пирамиды признаков различных масштабов, причем масштабы пирамид признаков можно каскадировать, уменьшать или увеличивать.Идея адаптера динамической головы состоит в том, чтобы развернуть три вида внимания в ортогональных измерениях (H, W, C) тензора, а именно в горизонтальном направлении, пространственном направлении и направлении канала.
Адаптер METER в основном предназначен для достижения расширенного мелкозернистого языкового представления, и идея его реализации заключается в следующем.заключается в использовании предварительно обученных RoBERT в качестве языкового кодировщика и CoSwin в качестве кодировщика изображений, а затем изучении контекстных представлений с использованием блоков совместного внимания.Блок совместного внимания состоит из блока самостоятельного внимания, блока перекрестного внимания и сети прямой связи.
По сравнению с адаптером CoSwin адаптер распознавания видео (VideoCoSwinAdapter) претерпел лишь незначительные изменения.
- Преобразуйте слой токенизации изображения в слой токенизации видео, то есть замените 2D-сверточный слой CoSwin на 3D-сверточный слой.
- videoCoSwinAdapter использует оператор объединения патчей 3D свертки
- Замена 2D-окна сдвига на 3D-окна локального сдвига в слое самоконтроля CoSwin.
- Примите стратегию динамического размера окна, используя меньшее окно смены в начале и большее окно смены в конце.
- инфраструктура обучения: Чтобы уменьшить объем вычислений и потребление памяти, автор интегрирует различные ключевые технологии, такие как ZeRO, контрольные точки активации, обучение смешанной точности, градиентное кэширование и другие технологии.
- ZeRO принимает) для разделения состояний оптимизатора, градиентов и параметров между графическими процессорами.
- Активировать контрольную точку: перезапустить прямое распространение во время обратного прохода
- Смешанная точность: обучение различным операциям с разной числовой точностью.
- Gradient Cache: замена больших пакетов точности меньшими подпакетами для обучения.
Производительность модели Флоренции, приведенная в последней статье для каждого набора данных:
Воспроизведение без разрешения запрещено.......