ICCV'21 | Стенограмма диссертации (День 2)

В основном он записывает статьи о визуальном понимании и запрещенных ярлыках.Добро пожаловать в проект Github.

0. Spatial-Temporal Transformer for Dynamic Scene Graph Generation

Для каждого кадра изображения в видеопоследовательности автор использует Transformer Encoder для извлечения информации о пространственном контексте и использует механизм скользящего окна для ввода характеристик нескольких соседних кадров в Transformer Decoder для захвата временных зависимостей. 在这里插入图片描述

1. Learning from Noisy Data with Robust Representation Learning

Авторы предлагают Prototype Contrastive Loss, чтобы стимулировать особенности различных пропорций смешанных входных данных, чтобы они по-прежнему имели аналогичные отношения с прототипами классов. Кроме того, автор также использует образцы Top-k, наиболее похожие на входные данные, для генерации Soft Pesudo-метки для удаления шума, существующего в метке. 在这里插入图片描述

2. Instance Similarity Learning for Unsupervised Feature Representation

GAN используется для изучения прокси, которые семантически похожи как на положительные образцы, так и на отрицательные образцы, чтобы постепенно обнаруживать потенциальные наборы положительных образцов. 在这里插入图片描述

3. Segmentation-grounded Scene Graph Generation

Внедрите сегментацию нулевого выстрела в генерацию графа сцены, чтобы получить более подробное представление функций. 在这里插入图片描述

4. Partner-Assisted Learning for Few-Shot Image Classification

Автор представил Contrastive Loss для обучения кодировщика-партнера задаче распознавания нескольких изображений, а затем исправил его для выполнения логит-уровня/выравнивания на уровне объекта в модели. 在这里插入图片描述

5. Visual Distant Supervision for Scene Graph Generation

По сравнению с обычной информацией о наблюдении при генерации графа сцены автор предлагает визуальное удаленное наблюдение. 在这里插入图片描述

6. With a Little Help from My Friends: Nearest-Neighbor Contrastive Learning of Visual Representations

В отличие от предыдущего обычного контрастного обучения, автор больше не рассматривает изображение одного и того же образца при различном усилении данных как положительную пару, а выбирает для замены ближайший образец образца. 在这里插入图片描述