«TransMatch: схема трансферного обучения для полуконтролируемого обучения с несколькими выстрелами»

категории: Бумажные заметки о чтении

теги: небольшое выборочное исследование

Резюме: В этой статье предлагается модель трансферного обучения для полуконтролируемого обучения с несколькими выстрелами, которое может полностью использовать информацию о помеченном базовом классе и немаркированном новом классе.

Резюме

В этой статье предлагается модель трансферного обучения для полуконтролируемого обучения с несколькими выстрелами, которая способна полностью использовать информацию о базовых и новых классах. Он состоит из трех частей: 1. Средство извлечения признаков, предварительно обученное на базовом классе 2. Использование средства извлечения признаков для инициализации весов классификатора для нового класса 3. Использование метода полуконтролируемого обучения для дальнейшего улучшения этого классификатор. Автор предлагает новый метод под названием MixMatch, который использует импринт и MixMatch для реализации этих трех частей.

введение

Сначала автор обобщает две основные школы обучения с использованием малых выборок: методы метаобучения и методы трансфертного обучения.

Подходы к метаобучениюПринята стратегия обучения по эпизодам. Эпизод — это механизм, аналогичный пакету, это часть данных, выбираемая из набора данных, который содержит только несколько данных в базовом классе, что моделирует ситуацию, когда во время тестирования имеется только небольшое количество размеченных данных. Данные аннотаций в эпизоде разделены на две части, а именно набор поддержки и набор запросов. Набор поддержки используется для построения модели, а набор запросов используется для оценки производительности модели.

трансферный метод обученияЭта статья вдохновлена подходом трансферного обучения, когда авторы пытаются предварительно обучить модель, используя немаркированные данные базового и нового классов, а затем использовать эту модель для изучения классификатора для нового класса.

основной вклад

1. Предлагается модель трансферного обучения для полуконтролируемого обучения с несколькими выстрелами, которая может полностью использовать информацию о классе и немаркированные новые данные о классе.

2. Разработал метод под названием TransMatch, который сочетает в себе преимущества метода обучения с несколькими выстрелами, основанного на трансферном обучении, и преимущества метода полуконтролируемого обучения.

3. Обширные эксперименты проводятся с популярными наборами данных для обучения с несколькими выстрелами и показывают, что метод действительно может в полной мере использовать немаркированную информацию о числах.

Связанных с работой

1. Обучение на небольшой выборке

Связанную с этим работу по групповому обучению можно разделить на две категории: одна основана на методах метаобучения, а другая — на методах трансфертного обучения.

Методы метаобучения:Обучение с помощью нескольких выстрелов, основанное на метаобучении, также известном как обучение обучению, направлено на изучение парадигмы, которая может быть применена к сценарию задачи по выявлению новых классов с помощью всего нескольких образцов. Метаобучение состоит из двух фаз: фазы метаобучения и фазы метатестирования. В основном это похоже на обычную фазу обучения и фазу тестирования, за исключением того, что на фазе обучения используется стратегия эпизодов, а на фазе тестирования имеется очень мало образцов для каждого класса. Методы метаобучения можно разделить на две категории: 1. Методы, основанные на метриках, 2. Методы, основанные на оптимизации.

Подход на основе показателейЦель состоит в том, чтобы изучить хорошую метрику для измерения расстояния между набором поддержки и набором запроса или для измерения сходства между ними.

оптимизационный подходЦель состоит в том, чтобы разработать алгоритм оптимизации, чтобы информацию об этапе обучения можно было применить к этапу тестирования. (Я думаю, именно так мы обычно обучаем модели для них)

Методы, основанные на трансферном обучении:В трансферном обучении не используется стратегия обучения по эпизодам, оно предварительно обучает модель на большом количестве размеченных данных базового класса, а затем адаптирует предварительно обученную модель к соответствующей задаче нового класса с небольшой выборкой.

2. Полуконтролируемое обучение

Полукодреемое обучение способно изучать как меченные, так и незамеченные данные. Он в основном разделен на две категории: один является самосогласованным методом регуляризации, а другой - метод минимизации энтропии.

Метод самосогласованной регуляризацииОсновной метод заключается в выполнении регуляризации путем добавления шума или увеличения данных.

Метод минимизации энтропииЦель состоит в том, чтобы уменьшить энтропию неразмеченных данных.

Метод MixMatch, используемый в этой статье, сочетает в себе различные типы самосогласованных методов регуляризации и методов минимизации энтропии, которые можно охарактеризовать как суперпроизводительные.

3. Небольшое обучение с полуучителем

Когда количество выборок в новом классе очень мало, очень легко подумать, что нужно использовать немаркированные данные для повышения производительности модели. Такая идея привела к полуконтролируемому методу обучения на малых выборках, и эта работа была проделана много, но большинство из них основано на обучении в юанях. Стратегия обучения ЭПИЗОД обучения в юанях напрямую интегрирована и не подходит, а метод обучения миграции может достичь той же производительности, что и метод метаобучения, который является источником вдохновения автора. Основанное на долларовом методе полунаблюдения, обучение на небольшой выборке имеет следующие недостатки: 1. Текущая производительность не самая лучшая 2. Более мощные методы, такие как MixMatch, не могут быть интегрированы Метод обучения на основе наблюдения может привести к ухудшению представление.

определение проблемы

набор данных $D_{base}$ : Набор данных базового класса, каждый класс включает множество аннотированных образцов. Содержащиеся в нем классы называются $C_{base}$ . $D_{novel}$ : новый набор данных класса, каждый класс включает небольшое количество помеченных образцов, но набор данных содержит большое количество немаркированных образцов. Содержащиеся в нем классы называются $C_{novel}$ . Классы в новом классе и классы в базовом классе не пересекаются.

авторская цельОн заключается в изучении надежного классификатора, в основном с использованием небольшого количества помеченных образцов и большого количества немеченых образцов в новом классе. использовать базовый класс $D_{base}$ в качестве вспомогательного набора данных.

метод

Метод, предложенный автором, заключается в том, чтобы сначала использовать данные базового класса для предобучения модели. Затем эта предварительно обученная модель используется в качестве экстрактора признаков для извлечения признаков из небольшого числа помеченных образцов в новом классе. Затем эти признаки непосредственно используются в качестве начальных весов нового классификатора классов, и на этой основе производится дальнейшая тонкая настройка.

Средство извлечения предварительно обученных признаковИспользуйте данные в базовом классе для обучения этого средства извлечения признаков. Это то же самое, что и цель предварительного обучения трансферному обучению, максимально извлечь знания из базового класса, а затем передать их на обучение новому классу.

Вес отпечаткановый класс $D_{novel}$ N классов отбираются посередине, и каждый класс отбирает K помеченных отсчетов, что формирует N-ходовую проблему K-выстрелов. Эта часть отвечает на два вопроса: 1. Как сделать взвешивание выходных данных? 2. Что на самом деле делает классификатор? Вес отпечаткаСм. уравнение 1 для основной формулы

w_c=\frac{1}{K}\sum^{K}_{k=1}f^e(x^c_k)\tag{1}

Нижний индекс c представляет c-й класс, $f^e$ Представляет экстрактор признаков, полученный на предыдущем этапе. $x^c_k$ представляет k-ю выборку c-го класса. Очевидно, что это среднее значение признаков, извлеченных из выборок N-way K-shot, и это среднее значение используется в качестве веса.

Классификатор на самом делевычисляет сходство. см. формулу 2

f^{novel}(x)=[cos(\theta(w_1,x)),....cos(\theta(w_N,x))]^{\prime}\tag{2}

f^{novel}(f^e(x))\tag{3}

Как видно из Уравнения 2 и Уравнения 3, классификатор нового класса фактически вычисляет косинусное сходство между признаками выборки x и средними признаками k-выборов. Класс с наибольшим сходством является наиболее предсказуемым классом. Однако это только начальное значение весов классификатора, и на следующем этапе требуется его тонкая настройка.

этап доводкиАвторы используют метод MixMatch для тонкой настройки классификатора. С одной стороны, MixMatch обладает превосходной производительностью в задачах обучения с полуучителем, а с другой стороны, MixMatch может эффективно использовать немаркированные данные. Пакет размеченных данных обозначается как $L=\{(x_i,p_i)\}^{B}_{i=1}$ , пакет неразмеченных данных обозначается как $U=\{x_u\}^U_{u=1}$ .

Ярлыки для немаркированных данныхЕго можно оценить по классификатору Выходных данных во второй части. Во-первых, улучшение данных выполняется для каждой выборки немаркированных данных для создания M расширенных версий, чтобы получить набор данных. $\{x_{u,1},...x_{u,M}\}$ , ввод этих M версий выборок в один и тот же классификатор соответственно сгенерирует M различных прогнозов и возьмет среднее значение этих M значений прогнозов, см. Уравнение 4. Затем выполните операцию повышения резкости (T = 0,5), чтобы минимизировать энтропию неразмеченных данных, и результат после повышения резкости будет использоваться в качестве окончательной оценки, см. уравнение 5.

\bar{p}_u=\frac{1}{M}\sum^{M}_{i=1}f(x_{u,i})\tag{4}

p_u=\bar{p}_{u}^{1/T}/\sum^N_{j=1}(\bar{p}_u)^{1/T}_j\tag{5}

оптимизировать цельОн состоит из двух частей: одна — кросс-энтропийная потеря, а другая — самосогласованная потеря регуляризации, см. уравнение 6.

loss=-\frac{1}{|\mathcal{X}^{'}_1|}\sum_{(x,p)\in \mathcal{X}^{'}_1}p\ log(f(x)) + \frac{1}{N|\mathcal{X}^{'}_2|}\sum_{(x,p)\in \mathcal{X}^{'}_2}||p-f(x)||^2_2\tag{6}

формула $f(·)$ Представляет новый классификатор классов, который используется для прогнозирования неразмеченных данных. Метод MixMatch использует метод увеличения данных Mixup, а именно создание смешанных образцов и смешанных меток. Первое место $L$ и $U$ Слияние (слияние здесь должно быть слиянием в направлении оси = 0), а затем выполните операцию перемешивания, см. формулу 7, и вызовите полученный результат как $\mathcal{W}$ , затем поместите это $\mathcal{W}$ Разделено на две части, см. уравнение 8. Это приводит к двум дополненным наборам данных $\mathcal{X}^{\prime}_{1}$ и $\mathcal{X}^{\prime}_{2}$ . в $\mathcal{X}^{\prime}_{1}$ будет $L$ набор данных и $\mathcal{W}$ первый $|L|$ получают путем смешивания образцов. $\mathcal{X}^{\prime}_{2}$ будет $U$ и $\mathcal{W}$ остальные $|U|$ получают путем смешивания образцов. Следовательно, метка для уравнения 6 $p$ Должна быть смешанная этикетка. Но почему вторая часть уравнения 6 имеет N.

\mathcal{W}=Shuffle(Concat(L,U))\tag{7}

\mathcal{X}^{'}_{1}=MixUp\{L_i,\mathcal{W}_i\}\qquad i\in (1....|L|) \\ \mathcal{X}^{\prime}_{2}=MixUp\{U_i,\mathcal{W}_{i+|L|}\} \qquad i\in (1....|U|) \tag{8}

Обзор

1. Используйте набор данных базового класса для предварительной подготовки экстрактора признаков, который используется для извлечения признаков образцов нового класса, и возьмите среднее значение признаков образцов нового класса, чтобы отпечатать веса новых классификаторов классов. 2. Объедините образцы с помеченными данными и образцы без помеченных данных и перетасуйте, чтобы сформировать новый набор. $\mathcal{W}$ . Этикетки немеченых образцов могут быть получены импринтированными классификаторами. 3. Помеченный набор данных будет $L$ и $\mathcal{W}$ средний фронт $|L|$ Набор данных получается путем выполнения операции MixUp над образцами. $\mathcal{X}_1^{\prime}$ , $\mathcal{X}^{\prime}_{2}$ будет $U$ и $\mathcal{W}$ остальные $|U|$ получают путем смешивания образцов. 4. Используйте классификатор Imprint в $\mathcal{X}_1^{\prime}$ Рассчитайте кросс-энтропийную потерю, в $\mathcal{X}_2^{\prime}$ Вычислите самосогласованную потерю регуляризации. С потерями можно рассчитать градиент, а затем применить обратное распространение для обновления параметров модели.

приложение

Что представляет собой процесс MixMatchzhuanlan.zhihu.com/p/66281890