Последнее исследование FAIR без учителя: обучение пространственно-временному представлению без учителя для видео

машинное обучение

Недавно группа Kaiming He из FAIR опубликовала исследование о неконтролируемом обучении с помощью видео:A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning, этот документ был включен в CVPR2021. В основе статьи лежит применение неконтролируемых методов обучения от недавних изображений до неконтролируемого обучения на видео. Этого рабочего эксперимента вполне достаточно, и только у крупных компаний, таких как Facebook и Google, достаточно ресурсов, чтобы провести такой масштабный эксперимент.

В статье выбраны четыре метода обучения без учителя: MoCo, BYOL, SimCLR, SwAV. Среди них MoCo и SimCLR — методы контрастного обучения, для которых требуются отрицательные образцы, а BYOL и SwAV — методы обучения без учителя, которые полагаются только на положительные образцы. С другой стороны, MoCo и BYOL используют импульсный кодировщик, а SimCLR и SwAV — нет. Два из четырех методов здесь предложены Facebook (MoCo и SwAV), а два других, SimCLR и BYOL, предложены Google.

图片

Эти четыре метода изначально использовались для неконтролируемого обучения изображений.По сравнению с изображениями видео имеют только одно дополнительное временное измерение.Эти методы могут быть легко расширены до неконтролируемого обучения видео. Будь то классификация изображений или классификация видео, неконтролируемое изучение инвариантов функций. Применительно к изображению вышеупомянутые методы фактически требуют, чтобы одно и то же изображение выполняло различные дополнения и отправляло его в сеть кодировщика для изучения инвариантных функций. Затем для классификации видео помимо преобразования самого изображения добавляется еще и измерение времени. Метод статьи состоит в том, чтобы отобрать разные видеоклипы из одного и того же видео для обучения без учителя (на самом деле это можно рассматривать как уникальное расширение видео), которое на самом деле надеется изучить устойчивые во времени функции. В статье SlowFast R-50 является самым энкодером. На изображении ниже показаны 3 разных клипа, извлеченных из видео:

图片

Если извлекается только один клип, то обучение фактически зависит только от преобразования самого изображения, чего явно недостаточно для классификации видео. Бумажный эксперимент также доказывает: полезно больше клипов. Как видно из таблицы ниже, с увеличением клипов производительность четырех типов методов будет улучшаться, что показывает, что для неконтролируемого обучения видео:learning space-time persistence within a video is important.

图片

Другой момент заключается в том, что чем больше временной интервал между срабатываниями, тем эффективнее при сэмплировании, что нетрудно понять, ведь чем жестче аугментация в изображении, тем лучше. Чем больше разница во времени между разными клипами, тем больше будет генерироваться жесткий позитив, что полезно для обучения. Однако, если это длинное видео, то клипы с большой разницей во времени могут иметь семантические изменения.Из экспериментальных результатов статьи влияние на эффект очень мало (случайная обрезка классификации изображений фактически изменит семантику , вроде кадрировать по фоновой области, но вроде тренировка толерантна к шуму). Как показано в таблице ниже, для набора данных IG-Curated-1M, когда временной интервал превышает 60 с, производительность повышается; для набора данных IG-Uncurated-1M, когда временной интервал превышает 600 с, производительность только немного уменьшился.

图片

Конкретно для четырех методов, по экспериментальным результатам, хотя производительность четырех методов не слишком очевидна, эффект MoCo и BYOL немного выше, чем у SimCLR и SwAV, Как упоминалось ранее, первый использует кодировщик импульса, импульс Роль кодировщика состоит в том, чтобы попытаться сохранить согласованность вывода модели, что может оказать большее влияние на проблему классификации видео. В документе нет конкретных пояснений. Для классификации видео из-за того, что для обучения требуется больше ресурсов, можно ли будет использовать большие размеры пакетов (64 * 8 = 512 в документе), что приведет к несколько худшему эффекту SimCLR? Здесь много переменных, и могут потребоваться дальнейшие исследования.

Когда для последующих задач используется неконтролируемое обучение, методы обучения без учителя могут даже превзойти методы обучения с учителем на некоторых наборах данных, таких как BYOL на основе обучения без учителя K400-240K, применяемого к наборам данных AVA и SSv2.Непосредственно на основе обучения K400-240K с учителем, а затем выполнить точную настройку двух наборов данных.

图片

В статье больше экспериментов, более подробную информацию можно найти в статье:АР Вест V.org/PDF/2104.14…

Эта статья доказывает эффективность неконтролируемого обучения задачам классификации видео с помощью большого количества экспериментов.Как указано в конце статьи, в будущем еще есть возможности для улучшения:

We observed that linear readout on Kinetics is a good indicator of the performance on other datasets and that unsupervised pre-training can compete with the supervised counterpart on several datasets, but there is room for improvement. We hope that our baselines will foster research and provide common ground for future comparisons.

Рекомендуемое чтение

CPVT: одна свертка может неявно кодировать информацию о местоположении.

DETR: обнаружение объектов на основе трансформаторов

MoCo V3: Я не то, что ты думаешь!

Применение трансформатора в семантической сегментации

Классика "будущего" ViT: все, что вам нужно - трансформер!

PVT: Pyramid Vision Transformer для решения интенсивных задач!

Восходящий артефакт FixRes: вдвое превосходит SOTA в наборе данных ImageNet

Почему Transformer может ворваться в мир CV и убить CNN за считанные секунды?

Попробуйте MoCo заменить модель предварительной подготовки на ImageNet!

Инженер по алгоритмам машинного обучения


Осторожный публичный аккаунт

图片


图片