ICCV2021 | Простая и эффективная новая схема визуального распознавания длинного хвоста: самоконтроль дистилляции (SSD)

предисловие

В этой статье предлагается концептуально простая, но особенно эффективная многоэтапная схема обучения зрительному распознаванию с длинными хвостами, которая называется «Самоконтроль до дистилляции» (SSD). Результаты SOTA получены в трех тестах распознавания с длинным хвостом: ImageNet-LT, CIFAR100-LT и iNaturist 2018. На разных наборах данных SSD превосходит мощный тест LWS на 2,7–4,5 %.

Эта статья взята из технического руководства по публичному аккаунту CV.Серия обмена бумагой

Обратите внимание на техническое руководство по общедоступной учетной записи CV, уделив особое внимание техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.

Диссертация: Самонаблюдение к дистилляции для длиннохвостого визуального распознавания

Backgound

Глубокое обучение добилось значительного прогресса в визуальном распознавании изображений и видео, обучая мощные нейронные сети на крупномасштабных, сбалансированных и тщательно подобранных наборах данных, таких как ImageNet и Kinetics.В отличие от этих искусственно сбалансированных наборов данных,Реальные данные всегда следуют распределению с длинным хвостом, что усложняет сбор сбалансированных наборов данных, особенно для естественных классов с разреженными выборками. Тем не мение,Обучение непосредственно на данных с длинными хвостами может привести к значительному снижению производительности из-за крайне несбалансированного распределения данных..

Обычный набор подходов для смягчения ухудшения, вызванного длинными данными обучения, представляет собой стратегии повторной балансировки на основе классов, включая повторную выборку данных обучения и разработку чувствительных к затратам перевзвешенных функций потерь.. Эти методы могут эффективно уменьшить доминирование головных классов во время обучения, что приведет к более точным границам решений классификации. Однако, поскольку исходное распределение данных искажено, а глубокие сети с чрезмерными параметрами могут легко соответствовать этому синтетическому распределению, они частоРиск переобучения хвостовых классов.

Рис. 1. Реальные данные всегда следуют распределению данных с длинными хвостами, в котором преобладают несколько головных классов с большим количеством выборок (т. е. синие кубы), но также содержится много хвостовых классов с дефицитом данных (т. куб), называемое исходным распределением. Обучение непосредственно на данных с длинным хвостом может привести к значительному снижению производительности. Распространенным способом борьбы с дисбалансом является повторная выборка, т. е. случайное отбрасывание изображений из головного класса и повторная выборка изображений (идентичных изображений, отмеченных уникальными римскими цифрами) из хвостового класса, что приводит к равномерному распределению. Эта стратегия может привести к слишком большому количеству хвостовых классов, для которых головные классы не подходят.

Чтобы преодолеть эти проблемы,Недавняя работа разделяет задачи обучения представлению и обучения классификатора.. Эта двухэтапная схема обучения сначала изучает визуальное представление при исходном распределении данных, а затем обучает линейный классификатор с замороженными функциями при выборке, сбалансированной по классам. Оказывается, чтоЭта простая двухэтапная схема обучения справляется с переобучением., и установите новую производительность SOTA в стандартных тестах с длинным хвостом. Тем не мение,Эта двухэтапная схема обучения плохо справляется с проблемой несбалансированного назначения меток, особенно на этапе обучения представлению..

Инновационные идеи

Целью этой статьи является разработка новой парадигмы обучения визуальному распознаванию с длинными хвостами с целью использования преимуществ двух методов распознавания с длинными хвостами, а именно сильной устойчивости к проблеме переобучения и эффективного решения проблемы несбалансированных меток.. Для достижения этой цели идея статьи состоит в том, чтобы изучить, как включить корреляцию меток в многоэтапную схему обучения.

Вдохновленные работой по дистилляции знаний при сжатии моделей, авторы наблюдаютМягкие метки, создаваемые сетью учителей, способны фиксировать внутренние отношения между классами, что может быть полезно для распознавания длинных хвостов путем передачи знаний из головных классов в конечные классы., как показано на рисунке 1. следовательно,Мягкие этикетки обеспечивают практическое решение для многоступенчатых стратегий обучения для моделирования этикеток.

Основываясь на приведенном выше анализе, в этой статье предлагается концептуально простая, но особенно эффективная многоэтапная схема обучения визуальному распознаванию длинного хвоста, называемая «Самоконтроль до дистилляции» (SSD).

Есть два основных вклада твердотельных накопителей:

(1) Структура самоперегонки для обучения эффективным сетям распознавания с длинным хвостом;

(2) Самоконтролируемый модуль генерации этикеток для дистилляции, который обеспечивает менее предвзятые, но более информативные программные этикетки для самодистилляции.

В частности, мы сначала упрощаем многоэтапный конвейер обучения с длинным хвостом в рамках простой структуры самоисправления, в которой мы можем естественным образом автоматически анализировать отношения меток и комбинировать эту неотъемлемую структуру меток для повышения производительности многоэтапного обучения. Производительность обобщения.

Затем, чтобы еще больше повысить надежность структуры самодистилляции, начиная с самого длиннохвостого обучающего набора, в этом документе предлагается модуль генерации меток расширенной дистилляции с самоконтролем. Самоконтролируемое обучение способно изучать эффективные визуальные представления без меток и одинаково относиться к каждому изображению, тем самым смягчая влияние несбалансированного распределения меток на создание программных меток.

Подводя итог, можно сказать, что основные вклады статьи заключаются в следующем:

Предлагается простая и эффективная многоступенчатая система обучения (SSD). В этой структуре преимущества перебалансированной выборки и стратегий развязанного обучения разделяются путем введения моделирования мягких меток на этапе изучения признаков.
Предлагается управляемый модуль генерации программных меток с самоконтролем, который может одновременно генерировать надежные программные метки как из домена данных, так и из домена меток. Эти программные теги предоставляют эффективную информацию, передавая знания от начала до конца.
SSD достигает производительности SOTA в трех сложных тестах распознавания с длинным хвостом, включая наборы данных ImageNet-LT, CIFAR100-LT и iNaturist 2018.

Methods

Общая структура самоконтроля дистилляции (SSD) показана на рисунке 2. SSD состоит из трех этапов: (1) управляемое обучение функциям с самостоятельным наблюдением; (2) создание промежуточных программных меток; (3) совместное обучение и самоанализ.

Рис. 2. Конвейер платформы Self-Supervised Distillation (SSD).

В документе сначала используется выборка, сбалансированная по экземплярам, для одновременного обучения начальной сети учителей как под наблюдением лейбла, так и под самоконтролем.

Затем отдельный линейный классификатор обучается поверх визуального представления путем уточнения границ решения класса с помощью выборки, сбалансированной по классам. Этот новый классификатор производит программные метки обучающих выборок для самостоятельной дистилляции.

Наконец, самодистилляционная сеть обучается под смешанным контролем мягких меток из предыдущего этапа и жестких меток из исходного обучающего набора. Из-за семантического разрыва между жесткими и мягкими ярлыками в отношении того, следует ли предвзято относиться к главному классу, в статье для этих двух видов надзора используются два заголовка классификации.

Управляемое изучение функций с самоконтролем

На этом этапе сеть обучается задачам классификации при исходном распределении данных с длинными хвостами. Задача классификации состоит из двух частей: одна — традиционная задача классификации C-Way, цель которой — классифицировать изображения по семантическим категориям C; другая — сбалансированная задача классификации с самоконтролем, которая начинается исключительно с самих данных. Хотя задача классификации C-пути предоставляет богатую семантическую информацию, она также страдает от длинных меток. Примеры хвостовых классов могут быть перегружены классами, богатыми данными, что приводит к проблемам недостаточного представления.

Таким образом, в статье создаются сбалансированные задачи классификации с самостоятельным наблюдением, такие как прогнозирование поворота изображения и различение экземпляров, которые учитывают каждое изображение одинаково, не подвергаясь влиянию меток. Предсказание поворота определяет углы поворота между {0◦, 90◦, 180◦, 270◦}. Дискриминация экземпляров рассматривает каждое изображение как отдельный класс, что эквивалентно классификации TON-WAY, где N — количество изображений в обучающем наборе.

Создание промежуточной мягкой этикетки

На этом этапе классификатор необходимо настроить в настройках баланса классов над замороженными объектами, чтобы сгенерировать извлеченные метки. В статье выбран метод обучаемого масштабирования веса (LWS) из-за его хорошей производительности в различных условиях. Он учится перемасштабировать веса классификатора, чтобы избежать склонности руководителей классов. При наличии изображения точно настроенный классификатор обеспечивает относительно сбалансированные и мягкие метки, интегрируя информацию, основанную на метках и данных, в качестве контроля учителя для следующего шага самоанализа.

Совместное обучение и самовыгон

Поскольку представление и классификатор обучаются отдельно с использованием разных стратегий выборки, вся сеть может быть неоптимальной. Однако прямая тонкая настройка магистральной сети на этапе обучения классификатора может ухудшить способность к обобщению. Вместо этого в документе предлагается совместно обучать другую магистральную сеть и классификатор по исходному распределению данных с длинными хвостами, сочетая смешанный контроль необработанных меток и сбалансированных извлеченных меток.

На этом этапе сеть инициализируется, потому что предыдущие представления все еще относительно смещены, и ее трудно настроить, чтобы избавиться от локальных минимумов. Кроме того, в других работах по самообучению были сделаны аналогичные выводы о том, что лучше обучать студентов с нуля, чем инициализировать их учителем. После обучения смешанной супервизии окончательная модель может достичь более высокой производительности, чем модель учителя, кроме того, дополнительный шаг тонкой настройки классификатора является необязательным, но рекомендуется для дальнейшего повышения производительности (тонкая настройка IV-классификатора).

Расширенное изучение функций с самоконтролем

На первом этапе изучения признаков в статье выбрано обучение магистральной сети многозадачному методу обучения с использованием стандартных задач с учителем и задач с самостоятельным наблюдением. Из-за высокого смещения меток контролируемые задачи могут игнорировать изображения классов с дефицитом данных, тогда как самоконтролируемые задачи обрабатывают каждую выборку одинаково, не подвергаясь влиянию длинных меток. Формально пусть θ будет параметром общей магистральной сети, ω — параметром контролируемой задачи и ω — параметром выбора самоконтролируемой задачи.

Затем функция потери задачи с самоконтролем для помеченного входного изображения может быть обозначена как L_self(x; θ, ω_Self), а L_sup(x, y; θ, ω_sup) представляет контролируемую перекрестную энтропийную потерю. Общие потери на этом этапе следующие:

Предсказание вращения и различение экземпляров выбраны в качестве прокси-задач с самоконтролем. Сеть может научиться правильно представлять изображения, решая эти суррогатные задачи.

Прогноз вращения

Прогнозирование поворота изображения — простая и эффективная классическая самостоятельная задача. Получив изображение, поверните его на случайный угол между {0◦, 90◦, 180◦, 270◦}, чтобы получить повернутый x'. Оба изображения отправляются в сеть одновременно. Исходное изображение используется для первоначальной потери перекрестной энтропии. x' вращения выбирается для предсказания степени вращения, которая может быть выражена как проблема сбалансированной классификации с 4 путями. В этом случае конкретный параметр ω сам по себе реализован как обычный 4-сторонний линейный классификатор.

дискриминация экземпляра

В задаче различения экземпляров каждое изображение рассматривается как отдельный класс, и непараметрический классификатор изучается для классификации каждого изображения. Формально называемое ℓ2-нормализованным вложением изображения, v'i — это ℓ2-нормализованное вложение, извлеченное из копий изображения с различными преобразованиями. Потеря, например дискриминация, может быть:

где τ — температура, а K — количество других изображений в виде негативных отсчетов, которые можно извлечь из банка памяти и текущей мини-партии. В документе создается импульсная сеть с очередями признаков для генерации большого количества отрицательных выборок и используется сама проекционная головка MLP ω для преобразования выходных данных магистрали в низкоразмерное пространство признаков.

Распознавание длинного хвоста на основе самоперегонки

В документе используются жесткие метки и мягкие метки для представления обучающих изображений. Цель состоит в том, чтобы изучить функцию встраивания F, которая закодирована как вектор признаков f = F(x; θ), и два классификатора G_hard и G_soft, вектор признаков f будет отправлен двум линейным классификаторам G_hard и G_soft для получения вывод Логический z_hard=G_hard(F) и z_soft=G_soft(F). z~ представляет выходные данные модели учителя, тогда программная метка:

T — температура, установленная на 2 по умолчанию. Тогда потери от дистилляции знаний записываются как:

Для жесткого контроля используется стандартная кросс-энтропийная потеря Lce. Таким образом, окончательный проигрыш представляет собой комбинацию этих двух проигрышей:

Conclusion

Результаты SOTA получены в трех тестах распознавания с длинным хвостом: ImageNet-LT, CIF AR100-LT и iNaturist 2018. На разных наборах данных SSD превосходит мощный тест LWS на 2,7–4,5 %.

1. Точность TOP-1 в наборе данных ImageNet-LT. По сравнению с методом SOTA с ResNeXt-50 в качестве основы.

2. Точность TOP-1 на наборе данных CIFAR100-LT с коэффициентами дисбаланса 100, 50 и 10. Сравнения сделаны с использованием самых современных методов с ResNet-32 в качестве магистральной сети.

Добро пожаловать в публичный аккаунтТехническое руководство по резюме, уделяя особое внимание техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.