РАЗДЕЛЯЮЩЕЕ ПРЕДСТАВЛЕНИЕ И КЛАССИФИКАТОР ДЛЯ РАСПОЗНАВАНИЯ ДЛИННОХВОСТЯХ

искусственный интеллект
РАЗДЕЛЯЮЩЕЕ ПРЕДСТАВЛЕНИЕ И КЛАССИФИКАТОР ДЛЯ РАСПОЗНАВАНИЯ ДЛИННОХВОСТЯХ

image.png

Оригинальный документ:у-у-у. yuque.com/pulllingheads/papers…

Статьи для ICLR 2020.

Предлагается простая и эффективная стратегия, основанная на парадигме повторной выборки, для решения задачи классификации распределения с длинными хвостами.

Предлагаемый метод разбивает процесс обучения модели на две части:representation learningиclassification.

Для первых полная модель обучается на исходном распределении данных, а именно экземплярно-сбалансированной (естественной) выборке, для изучения _наилучших и наиболее обобщаемых представлений_.После обучения классификатор модели дополнительно корректируется (retraining the classifier with class-balanced sampling or by a simple, yet effective, classifier weight normalization which has only a single hyperparameter controlling the "temperature" and which does not require additional training).

В этой работе авторы демонстрируют, что в сценариях с длинными хвостами это разделение может напрямую обеспечить хорошую производительность обнаружения без разработки стратегий выборки, балансировки потерь или добавления модулей памяти.

следуй сюдаzhuanlan.zhihu.com/p/158638078в заключении:

Суть перебалансировки любого несбалансированного набора данных классификации должна заключаться только в перебалансировке классификатора и не должна использовать распределение категорий для изменения распределения признаков изображения во время изучения признаков или распределения признаков изображения и распределения меток категорий, сущности не связаны.

Исходная информация

Связанных с работой

Введение родственных работ в статью очень подробное и всеобъемлющее, проводится относительно полное прочесывание. Существующие исследования в основном можно разделить на три направления:

  • Data distribution re-balancing. Re-sample the dataset to achieve a more balanced data distribution.
    • Передискретизация, избыточная выборка для классов меньшинства (путем добавления копий данных)
    • Недостаточная выборка, недостаточная выборка для большинства классов (путем удаления данных)
    • Сбалансированная по классам выборка, сбалансированная по классам выборка на основе количества выборок для каждого класса
  • Class-balanced Losses. Assign different losses to different training samples for each class.
    • The loss can vary at class-level for matching a given data distribution and improving the generalization of tail classes.
    • A more fine-grained control of the loss can also be achieved at sample level, e.g. with Focal loss, Meta-Weight-Net, re-weighted training, or based on Bayesian uncertainty.
    • To balance the classification regions of head and tail classes using an affinity measure to enforce cluster centers of classes to be uniformly spaced and equidistant.
  • Transfer learning from head to tail classes. Transferring features learned from head classes with abundant training instances to under-represented tail classes.
    • Recent work includes transferring the intra-class variance and transferring semantic deep features. However it is usually a non-trivial task to design specific modules (e.g. external memory) for feature transfer.

А также добавлено сравнение с недавним эталонным методом распознавания ближнего удара:

  • Распознавание нескольких выстрелов, они содержат этап обучения представлению, на котором классы с несколькими выстрелами не могут быть обработаны (без доступа к ним), позже будет этап обучения с несколькими выстрелами.
  • Напротив, предположение о наборе длиннохвостой идентификации распределения предполагает, что доступны как головные, так и хвостовые категории, а сокращение меток категорий является более непрерывным.

Обучение представлению для распознавания длинного хвоста

При распознавании с длинным хвостом обучающий набор в целом следует распределению с длинным хвостом по всем классам.В процессе обучения для некоторых необычных классов объем данных невелик, и модель, обученная с использованием такого несбалансированного набора данных, имеет тенденцию к должному к недообучению на небольших выборочных классах. Но на практике нам нужна модель, которая может быть хорошо идентифицирована для всех классов. Поэтому предлагаются различные стратегии повторной выборки для нескольких выборок, методы повторного взвешивания потерь и регуляризации маржи (регуляризация маржи). Однако, неясно, как они достигают улучшения производительности (если таковое имеется) для распознавания длинного хвоста. В этой статье систематически исследуется их эффективность путем отделения процесса обучения представлению от процесса обучения классификатора, чтобы определить, что имеет значение для распределений с длинными хвостами. Сначала проясните соответствующие обозначения:

  • X={xi,yi},iе{1,,n}X=\{x_i, y_i\}, i \in \{1, \dots, n\}представляет обучающую выборку, гдеyiy_iозначает для точки данныхxix_iсоответствующий ярлык.
  • njn_jдля категорииjjколичество соответствующих обучающих выборок иn=Σj=1cnjn = \Sigma^{c}_{j=1} n_jпредставляет собой общее количество обучающих выборок.
  • Не общий, здесь все классы отсортированы в порядке убывания по соответствующему им количеству отсчетов, то есть их вместимости, то есть еслиi<ji<j, то естьninjn_i \ge n_jКроме того, за счет постановки длинного хвоста, такn1nCn_1 \gg n_C, то есть головной класс намного больше, чем хвостовой.
  • f(x;θ)=zf(x; \theta) = zпредставляет собой представление входных данных, гдеf(x;θ)f(x; \theta)Передайте параметр какθ\thetaРеализация модели CNN.
  • окончательный прогноз классаy~\tilde{y}по функции классификатораggдать, то естьy~=argmaxg(z)\tilde{y} = \text{argmax}\, g(z). В целомggявляется линейным классификатором, т.е.g(z)=Wz+bg(z) = \mathbf{W}^\top z + \mathbf{b}. здесьW&b\mathbf{W} \& \mathbf{b}Представляют весовую матрицу и параметры смещения соответственно. Конечно, некоторые другие формыgg.

стратегия выборки

Это направлено на то, чтобы сбалансировать распределение данных для обучения представлению и обучения классификатора.Большинство стратегий выборки можно единообразно выразить следующим образом.То есть для выборки точки данных она исходит из классаjjВероятностьpjp_jможно выразить как:pj=njqΣi=1Cniqp_j = \frac{n^q_j}{\Sigma^C_{i=1}n_i^q}Обратите внимание, что это представление на основе классов, на самом деле для каждого отдельного данных процесс их выборки можно рассматривать как двухэтапный процесс, то есть первыйCCВыполните индивидуальную выборку для каждого класса, а затем выполните единую выборку данных внутри класса. Здесь содержится параметрqе[0,1]q \in [0, 1], Он используется для модуляции вероятности выборки разных классов, в соответствии с его различными значениями, его можно разделить на различные ситуации:

  • Выборка, сбалансированная по экземплярам: это наиболее распространенный способ выборки данных, каждая обучающая выборка выбирается с равной вероятностью.q=1q=1, Вероятность того, что выбрана точка данных из определенного классаpIBp^{IB}Пропорционально емкости категории.
  • Выборка, сбалансированная по классам: для несбалансированных наборов данных выборка, сбалансированная по экземплярам, ​​является неоптимальной, поскольку модель не соответствует классам с несколькими выстрелами, что приводит к более низкой точности, особенно для сбалансированных тестовых наборов.В то время как выборка, сбалансированная по классам, использовалась для смягчения этого несоответствия. В этом случае каждый класс вынужден выбираться с равной вероятностью.q=0q = 0, то есть прямо стирается влияние количества данных в классе.Все классы имеютpCB=1/Cp^{CB} = 1/CНа самом деле эту политику можно рассматривать как двухэтапный процесс выборки, причем на первых этапах выборка осуществляется равномерно из набора категорий, на втором этапе выборка формируется равномерно.
  • Выборка квадратного корня: также изучаются некоторые другие стратегии выборки, обычно используемый вариант - выборка квадратного корня, когдаq=1/2q=1/2.
    • Typically, a class-balanced loss assigns sample weights inversely proportionally to the class frequency. This simple heuristic method has been widely adopted. However, recent work on training from large-scale, real-world, long-tailed datasets reveals poor performance when using this strategyВместо этого они используют «сглаженную» версию весов, которые эмпирически устанавливаются обратно пропорциональными квадратному корню из частоты классов (из «Сбалансированных по классам потерь на основе эффективного числа выборок»).
  • Прогрессивная выборка: некоторые современные методы пытаются объединить предыдущие стратегии для достижения стратегии гибридной выборки.На практике в некоторые эпохи используется выборка, сбалансированная по экземплярам, ​​а затем переключается на выборку, сбалансированную по классам, в оставшиеся эпохи.Эти гибридные Стратегия выборки требует установки точек времени переключения, что вводит гиперпараметры для рака желудка. В этой статье используется «смягченная» версия, а именно прогрессивная сбалансированная выборка. С помощью параметра интерполяции, который постоянно корректируется по мере продвижения эпохи обучения. Линейно взвешенный класс выборочные вероятности IB и CB.pjPB(t)=(1tT)pjIB+tTpjCBp^{PB}_j(t) = (1 - \frac{t}{T}) p_j^{IB} + \frac{t}{T} p_j^{CB}. здесьTTУказывает общее количество эпох.

Автор строит шкалу весов выборки на основе данных ImageNet-LT:

image.png

Следующее содержание в статье _Сбалансированные по классам потери на основе эффективного количества выборок_ является хорошей иллюстрацией проблемы повторной выборки:

Inthe context of deep feature representation learning using CNNs, re-sampling may either introduce large amounts of duplicated samples, which slows down the training and makes the model susceptible to overfitting when oversampling, or discard valuable examples that are important for feature learning when under-sampling.

переоценка убытков

Эта часть контента на самом деле не очень актуальна для обсуждения в этой статье, поэтому авторы не прочесывали ее слишком подробно.

Кроме того, мы обнаружили, что некоторые современные методы, сообщающие о высокой эффективности, трудно обучать и воспроизводить, и во многих случаяхТребуется обширная настройка гиперпараметров для конкретного набора данных..

Эксперименты в статье показывают, что базовые методы, оснащенные должным образом сбалансированными классификаторами, могутЛучше, если не лучше, чем современные методы перевзвешивания убытков..

Некоторые из последних связанных методов сравниваются в статье:

  • Focal Loss: предлагается для задач обнаружения целей.За счет уменьшения веса потерь простых образцов уравновешиваются потери классификации на уровне образцов.yiy_iобразецxix_iвероятностный прогнозhih_iДобавлен коэффициент повторного взвешивания(1hi)γ,γ>0(1 - h_i)^{\gamma}, \gamma > 0, чтобы скорректировать стандартную кросс-энтропийную потерю:Lfocal:=(1hi)γLCE=(1hi)γlog(hi)\mathcal{L}_{\text{focal}} := (1 - h_i)^\gamma \mathcal{L}_{\text{CE}} = -(1 - h_i)^\gamma \text{log}(h_i)Общий эффект заключается в применении меньших весовых коэффициентов к простым выборкам с большими прогнозируемыми вероятностями и больших весовых коэффициентов к сложным выборкам с меньшими прогнозируемыми вероятностями.
  • Сбалансированный по классам вариант Focal Loss: для класса $j из

Образцы $ взвешиваются с использованием коэффициента баланса класса. Его можно использовать для замены параметра альфа в исходном FocalLoss. Таким образом, метод (аналитически видимый:https://www.cnblogs.com/wanghui-garcia/p/12193562.html) можно рассматривать как способ явного задания альфы в фокальных потерях на основе концепции эффективного размера выборки (Class-Balanced Loss Based on Effective Number of Samples: GitHub.com/Richard AE талант…)

  • Label-distribution-aware margin(LDAM)loss (https://arxiv.org/pdf/1906.07413.pdf): рекомендуется, чтобы классы с несколькими выстрелами имели большие границы, а их окончательная форма потерь может быть выражена как кросс-энтропийная потеря с принудительными границами:LLDAM:=logey^jΔjey^jΔj+Σcjey^c\mathcal{L}_{\text{LDAM}} := -\log\frac{e^{\hat{y}_j - \Delta_j}}{e^{\hat{y}_j - \Delta_j} + \Sigma_{c \ne j} e^{\hat{y}_c}}. здесьy^\hat{y}являются логитами, аΔj1nj1/4\Delta_j \propto \frac{1}{n_j^{1/4}}Является ли маржа в курсе класса (некоторое введение к краю потери софтмакса:SoftMax понимает Margin - статья Ван Фэна - знайzhuanlan.zhihu.com/p/52108088)

Обучение классификации для распознавания длинного хвоста

При изучении модели классификации на сбалансированном наборе данных классификатор обучается совместно с моделью, используемой для извлечения представлений через потерю перекрестной энтропии.На самом деле это типичная базовая настройка для задачи распознавания с длинным хвостом.Хотя существуют разные методы, такие как поскольку была предложена повторная выборка, повторное взвешивание или передача представлений, но общая парадигма остается неизменной, т. е. классификатор либо изучается сквозным образом совместно с обучением представлений, либо посредством двухэтапного подхода, где на втором этапе классификатор и обучение представлению совместно настраиваются с вариантом выборки, сбалансированной по классам.

В этой статье обучение представлению отделено от классификации, чтобы иметь дело с распознаванием длинного хвоста.

Таким образом, ниже показаны некоторые из методов, использованных в этой статье для изучения классификаторов, с целью исправления границ принятия решений о головном и хвостовом классах, в основном с использованием различных стратегий выборки или других методов без параметров (таких как классификация среднего класса ближайшего соседа). classifier) ​​для тонкой настройки классификатора.Некоторые методы, не требующие дополнительного переобучения, также считаются перебалансировкой весов классификатора, которые показывают хорошую точность.

  • Переобучение классификатора (cRT).Это простой метод, которыйПереобучите классификатор, используя сбалансированную по классам выборкут. е. сохранить фиксированную модель обучения представлению, случайным образом повторно инициализировать и оптимизировать веса и смещения классификатора, переобучить небольшое количество эпох, используя выборку, сбалансированную по классам.
  • Классификатор ближайшего среднего класса (NCM).Другой часто используемый подход заключается в том, чтобы сначала вычислить среднее представление признаков для каждого класса в обучающем наборе и выполнить поиск ближайшего соседа по нормализованным средним признакам L2 на основе предварительного сходства или на основе на евклидовом расстоянии.Хотя этот параметр прост, он также является сильной базовой моделью.В экспериментах в этой статье косинусное сходство облегчает проблему дисбаланса веса за счет встроенной нормализации.
  • т\tau-normalized classifier (т\tau-normalized).
    • Здесь исследуется эффективный метод перебалансировки границы решения классификатора, вдохновленный эмпирическим наблюдением, что после совместного обучения с выборкой, сбалансированной по экземплярам, ​​весовая нормаwj||w_j||связана с пропускной способностью класса.Однако после тонкой настройки классификатора с выборкой, сбалансированной по классам, норма весов классификатора имеет тенденцию быть более похожей (как видно из левой части рисунка 2, весовая норма модель после тонкой настройки сбалансированной по классам выборки.
    • Вдохновленные такими наблюдениями, авторы считаютт\tau-нормализация напрямую регулирует весовую норму классификатора, чтобы исправить дисбаланс границы решения Здесь пустьW={wj}еRd×C,wjеRd\mathbf{W} = \{w_j\} \in \mathbb{R}^{d \times C}, w_j \in \mathbb{R}^d, что указывает на то, что каждый класс соответствуетjjНабор весов классификации для . Это масштабирует веса, чтобы получить нормализованную форму:W~={w~j},w~i=wiwiт\tilde{\mathbf{W}} =\{\tilde{w}_j\}, \tilde{w}_i = \frac{w_i}{||w_i||^{\tau}}, здесьт\tau— гиперпараметр, нормализующий температуру, а в знаменателе — норма L2.т=1\tau = 1, дробь преобразуется в нормализацию L2, и когда она равна 0, процесс нормализации отсутствует.Здесь эмпирический выборте(0,1)\tau \in (0, 1), чтобы круг можно было плавно исправить.
    • После такой нормализации логиты классификации могут быть выражены как, то есть с использованием нормализованного линейного классификатора для обработки извлеченного представленияf(x;θ)f(x; \theta)Обратите внимание, что член смещения здесь удален, поскольку его влияние на логиты и окончательное предсказание незначительно.
    • Этот параметр tau использует набор проверки для поиска по сетке:In our submission, tau is determined by grid search on a validation dataset. The search grid is [0.0, 0.1, 0.2, ..., 1.0]. We use overall top-1 accuracy to find the best tau on validation set and use that value for test set.
  • Еще одно объяснение масштабирования обучаемого веса (LWS)т\tauСпособ -нормализации состоит в том, чтобы думать об этом как о способе масштабирования величины весов при сохранении направления весов классификатора, который можно переформулировать как:w~i=fi*wi,fi=1wiт\tilde{w}_i = f_i * w_i, f_i = \frac{1}{||w_i||^\tau}, хотя длят\tauГиперпараметры для -нормализации могут быть выбраны перекрестной проверкой, но авторы далее пытаются использовать коэффициент масштабированияfif_iучиться на обучающем наборе,Также используйте сбалансированную по классам выборкуВ этом случае оставьте фиксированными веса представления и классификатора и изучите только коэффициенты масштабирования.

image.png

из приложения

Обратите внимание, что среди нескольких стратегий, упомянутых выше для настройки классификатора на втором этапе, только cRT и LWS участвуют в стратегиях переобучения и выборки, и обе используют сбалансированную по классам повторную выборку.т\tau-normalized не нужно учитывать стратегию повторной выборки второго этапа, потому что их не нужно переобучать.

image.png

image.png

Детали эксперимента

Экспериментальная установка

набор данных

  • Places-LT and ImageNet-LT are artificially truncated from their balanced versions (Places-2 (Zhou et al., 2017) and ImageNet-2012 (Deng et al., 2009)) so that the labels of the training set follow a long-tailed distribution.
    • Places-LT contains images from 365 categories and the number of images per class ranges from 4980 to 5.
    • ImageNet-LT has 1000 classes and the number of images per class ranges from 1280 to 5 images.
  • iNaturalist 2018 is a real-world, naturally long-tailed dataset, consisting of samples from 8, 142 species.

Метод оценки

  • After training on the long-tailed datasets, we evaluate the models on the corresponding balanced test/validation datasets and report the commonly used top-1 accuracy over all classes, denoted as All.
  • To better examine performance variations across classes with different number of examples seen during training, we follow Liu et al. (2019) and further report accuracy on three splits of the set of classes: Многокадровый (более 100 изображений), средний (20~100 изображений) и малокадровый (менее 20 изображений). Accuracy is reported as a percentage.

детали реализации

  • We use the PyTorch (Paszke et al., 2017) framework for all experiments.
  • For Places-LT, we choose ResNet-152 as the backbone network and **pretrain it on the full ImageNet-2012 dataset **, following Liu et al. (2019).
  • On ImageNet-LT, we report results with ResNet-{10, 50, 101, 152} (He et al., 2016) and ResNeXt-{50, 101, 152}(32x4d) (Xie et al., 2017) but mainly use ResNeXt-50 for analysis.
  • Similarly, ResNet-{50, 101, 152} is also used for iNaturalist 2018.
  • For all experiements, if not specified, we use SGD optimizer with momentum 0.9, batch size 512, cosine learning rate schedule (Loshchilov & Hutter, 2016) gradually decaying from 0.2 to 0 and image resolution 224×224.
  • In the first representation learning stage, the backbone network is usually trained for 90 epochs(Здесь используется выборка, сбалансированная по экземплярам, ​​для обучения представлению)
  • In the second stage, i.e., for retraining a classifier (cRT), we restart the learning rate and train it for 10 epochs while keeping the backbone network fixed.

конкретные эксперименты

image.png

Обратите внимание, что все стратегии выборки на этом рисунке относятся к стратегиям выборки, используемым в процессе обучения представлению.

Сравнение эффектов различных стратегий выборки при совместном обучении

image.png

Дополнительный рисунок из приложения For the joint training scheme (Joint), the linear classifier and backbone for representation learning are jointly trained for 90 epochs using a standard cross-entropy loss and different sampling strategies, т. е. сбалансированный экземпляр, сбалансированный по классам, квадратный корень и прогрессивно сбалансированный. Можно увидеть сравнение суставов на рисунке 1 и в таблице 5:

  • Лучшая производительность может быть достигнута с помощью лучших стратегий выборки.Результаты различных стратегий выборки в совместном обучении подтверждают мотивацию связанной работы, пытающейся разработать лучшие методы выборки данных.
  • Выборка, сбалансированная по экземплярам, ​​лучше работает для многократных выборок, потому что окончательная модель сильно смещена в сторону этих многократных классов.

Эффективность стратегий развязанного обучения

image.png

Из сравнения рисунка 1 видно, что стратегия cRT используется на втором этапе для настройки модели.

For the decoupled learning schemes, we present results when learning the classifierспособами, то есть повторной инициализацией и повторным обучением (cRT), ближайшим средним классом (NCM), а также τ-нормализованным классификатором. Как видно из рисунка 1 в целом:

  • В большинстве случаев стратегия развязывающего обучения лучше, чем общее обучение.
  • Даже безпараметрическая NCM-стратегия работает не так уж плохо, ее общая производительность в основном падает из-за низкой производительности в мультишотах.
  • Никакого дополнительного обучения или стратегии выборки не требуется для НКМ ит\tauВсе -нормализованные стратегии демонстрируют чрезвычайно конкурентоспособную производительность.Их отличные результаты могут быть связаны с их способностью адаптивно корректировать границы решений для классов с большим/средним/малым числом выстрелов (как показано на рисунке 4).
  • Во всех методах разделения, когда речь идет об общей производительности и всех разделениях классов, кроме многократных, мы видим,Выборка, сбалансированная по экземплярам, ​​обеспечивает наилучшие результаты, Это особенно интересно, потому что означает**Несбалансированность данных может не быть проблемой, влияющей на изучение высококачественных представлений.**.Выборка, сбалансированная по экземплярам, ​​обеспечивает наиболее общее представление.

Для дальнейшего сравнения в таблице 1 перечислены модели, когда магистраль и линейный классификатор совместно настраиваются (B+C и B+C(0,1xlr)), только последний блок остова настраивается (LB+C). ), либо фиксируется костяк и Несколько сценариев обучения классификатора (С). Как видно из таблицы 1:

  • Тонкая настройка всей модели имеет наихудшую производительность.
  • Фиксированная магистраль, лучший эффект (потому что это задача распределения с длинным хвостом, поэтому уделяйте больше внимания общему эффекту и эффекту класса с несколькими выборками).
  • Настройка обучения развязке очень подходит для задач распознавания длинных хвостов.

Сравнение эффектов различных стратегий сбалансированного классификатора

На рисунке 2 (слева) мы эмпирически показываем L2-норму весовых векторов для всех классификаторов и распределение обучающих данных, отсортированных в порядке убывания, относительно количества экземпляров в обучающем наборе. Мы можем наблюдать:

  • Весовая норма объединенного классификатора (синяя линия) положительно коррелирует с количеством обучающих экземпляров соответствующего класса.
    • классы с большим количеством выстрелов, как правило, изучают классификаторы с большими величинами.Как показано на рисунке 4,Это создает более широкие границы классификации в пространстве признаков,Позволяет классификатору иметь более высокую точность для классов с большим количеством данных за счет классов с дефицитом данных..
  • τ-нормализованный классификатор (золотая линия) в некоторой степени облегчает эту проблему.Обеспечивает более сбалансированный размер веса классификатора.
  • Для стратегии переобучения (зеленая линия) веса почти сбалансированы,За исключением того, что классы с несколькими выстрелами имеют несколько большую норму веса.
  • Метод NCM даст горизонтальную линию на графике,Поскольку средний вектор нормализуется по L2 перед поиском ближайшего соседа.
  • На рисунке 2 (справа) мы дополнительно исследуем, как производительность изменяется при изменении температурного параметра τ классификатора τ-нормализации.При увеличении τ от 0 точность многовыборочного класса резко падает, а точность маловыборочного класса резко возрастает..

Сравнение с существующими методами

image.png

image.png

дополнительные эксперименты

image.png

  • т\tauВыбор: В текущих настройках параметр tau должен определяться проверочным набором, что может быть недостатком в практических сценариях.С этой целью авторы разрабатывают еще две адаптивные стратегии:
    • Поиск тау на тренировочном наборе: как видно из таблицы 9, окончательный эффект на тестовом наборе очень близок.
      • We achieve this goal by simulating a balanced testing distribution from the training set.

        • We first feed the whole training set through the network to get the top-1 accuracy for each of the classes.
        • Then, we average the class-specific accuracies and use the averaged accuracy as the metric to determine the tau value.
      • Как показано в таблице 9, мы сравниваем τ, найденный в обучающем наборе, и наборе проверки для всех трех наборов данных, Мы видим, что как значение τ, так и общие характеристики очень близки друг к другу, что демонстрирует эффективность поиска τ на тренировочном наборе.

      • Эта стратегия предлагает практичный способ найти τ, даже если проверочный набор недоступен.

    • Изучение тау из тренировочного набора: мы дополнительно исследуем, можем ли мы автоматически узнать значение τ вместо поиска по сетке.
      • С этой целью, следуя cRT, мы устанавливаем τ как обучаемый параметр иlearn it on the training set with balanced sampling, while keeping all the other parameters fixed (including both the backbone network and classifier).
      • Кроме того, мы сравниваем изученное значение τ и соответствующие результаты в таблице 9 (обозначенные «обучение» = ✓), что еще больше сокращает ручные усилия по поиску лучших значений τ и делает стратегию более доступной для практического использования.

image.png

image.png

  • Сравнение классификатора MLP и линейного классификатора: мы используем ReLU в качестве функции активации, устанавливаем размер пакета равным 512 иtrain the MLP using balanced sampling on fixed representation for 10 epochs with a cosine learning rate schedule, which gradually decrease the learning rate to zero.

image.png

  • Использование вычисления сходства косинуса для замены линейного классификатора: мы попытались заменить линейный классификатор классификатором сходства косинуса с (обозначается «cos») и без (обозначается «cos (noRelu)») последней функцией активации ReLU, после [Dynamic few-shot visual learning without forgetting].

Резюме эксперимента

Хотя стратегии выборки важны при совместном изучении представлений и классификаторов, выборка, сбалансированная по экземплярам, ​​обеспечивает более обобщенные представления, и после надлежащей перебалансировки классификатора без сложных потерь или единиц памяти может быть достигнута современная производительность.

Ссылка на ссылку