«TransMatch: схема трансферного обучения для полуконтролируемого обучения с несколькими выстрелами»

искусственный интеллект

категории: Бумажные заметки о чтении

теги: небольшое выборочное исследование

Резюме: В этой статье предлагается модель трансферного обучения для полуконтролируемого обучения с несколькими выстрелами, которое может полностью использовать информацию о помеченном базовом классе и немаркированном новом классе.

Резюме

В этой статье предлагается модель трансферного обучения для полуконтролируемого обучения с несколькими выстрелами, которая способна полностью использовать информацию о базовых и новых классах. Он состоит из трех частей: 1. Средство извлечения признаков, предварительно обученное на базовом классе 2. Использование средства извлечения признаков для инициализации весов классификатора для нового класса 3. Использование метода полуконтролируемого обучения для дальнейшего улучшения этого классификатор. Автор предлагает новый метод под названием MixMatch, который использует импринт и MixMatch для реализации этих трех частей.

введение

Сначала автор обобщает две основные школы обучения с использованием малых выборок: методы метаобучения и методы трансфертного обучения.

Подходы к метаобучениюПринята стратегия обучения по эпизодам. Эпизод — это механизм, аналогичный пакету, это часть данных, выбираемая из набора данных, который содержит только несколько данных в базовом классе, что моделирует ситуацию, когда во время тестирования имеется только небольшое количество размеченных данных. Данные аннотаций в эпизоде ​​разделены на две части, а именно набор поддержки и набор запросов. Набор поддержки используется для построения модели, а набор запросов используется для оценки производительности модели.

трансферный метод обученияЭта статья вдохновлена ​​​​подходом трансферного обучения, когда авторы пытаются предварительно обучить модель, используя немаркированные данные базового и нового классов, а затем использовать эту модель для изучения классификатора для нового класса.

основной вклад

1. Предлагается модель трансферного обучения для полуконтролируемого обучения с несколькими выстрелами, которая может полностью использовать информацию о классе и немаркированные новые данные о классе.

2. Разработал метод под названием TransMatch, который сочетает в себе преимущества метода обучения с несколькими выстрелами, основанного на трансферном обучении, и преимущества метода полуконтролируемого обучения.

3. Обширные эксперименты проводятся с популярными наборами данных для обучения с несколькими выстрелами и показывают, что метод действительно может в полной мере использовать немаркированную информацию о числах.

Связанных с работой

1. Обучение на небольшой выборке

Связанную с этим работу по групповому обучению можно разделить на две категории: одна основана на методах метаобучения, а другая — на методах трансфертного обучения.

Методы метаобучения:Обучение с помощью нескольких выстрелов, основанное на метаобучении, также известном как обучение обучению, направлено на изучение парадигмы, которая может быть применена к сценарию задачи по выявлению новых классов с помощью всего нескольких образцов. Метаобучение состоит из двух фаз: фазы метаобучения и фазы метатестирования. В основном это похоже на обычную фазу обучения и фазу тестирования, за исключением того, что на фазе обучения используется стратегия эпизодов, а на фазе тестирования имеется очень мало образцов для каждого класса. Методы метаобучения можно разделить на две категории: 1. Методы, основанные на метриках, 2. Методы, основанные на оптимизации.

  Подход на основе показателейЦель состоит в том, чтобы изучить хорошую метрику для измерения расстояния между набором поддержки и набором запроса или для измерения сходства между ними.

  оптимизационный подходЦель состоит в том, чтобы разработать алгоритм оптимизации, чтобы информацию об этапе обучения можно было применить к этапу тестирования. (Я думаю, именно так мы обычно обучаем модели для них)

Методы, основанные на трансферном обучении:В трансферном обучении не используется стратегия обучения по эпизодам, оно предварительно обучает модель на большом количестве размеченных данных базового класса, а затем адаптирует предварительно обученную модель к соответствующей задаче нового класса с небольшой выборкой.

2. Полуконтролируемое обучение

Полукодреемое обучение способно изучать как меченные, так и незамеченные данные. Он в основном разделен на две категории: один является самосогласованным методом регуляризации, а другой - метод минимизации энтропии.

Метод самосогласованной регуляризацииОсновной метод заключается в выполнении регуляризации путем добавления шума или увеличения данных.

Метод минимизации энтропииЦель состоит в том, чтобы уменьшить энтропию неразмеченных данных.

Метод MixMatch, используемый в этой статье, сочетает в себе различные типы самосогласованных методов регуляризации и методов минимизации энтропии, которые можно охарактеризовать как суперпроизводительные.

3. Небольшое обучение с полуучителем

Когда количество выборок в новом классе очень мало, очень легко подумать, что нужно использовать немаркированные данные для повышения производительности модели. Такая идея привела к полуконтролируемому методу обучения на малых выборках, и эта работа была проделана много, но большинство из них основано на обучении в юанях. Стратегия обучения ЭПИЗОД обучения в юанях напрямую интегрирована и не подходит, а метод обучения миграции может достичь той же производительности, что и метод метаобучения, который является источником вдохновения автора. Основанное на долларовом методе полунаблюдения, обучение на небольшой выборке имеет следующие недостатки: 1. Текущая производительность не самая лучшая 2. Более мощные методы, такие как MixMatch, не могут быть интегрированы Метод обучения на основе наблюдения может привести к ухудшению представление.

определение проблемы

набор данных DbaseD_{base}: Набор данных базового класса, каждый класс включает множество аннотированных образцов. Содержащиеся в нем классы называютсяCbaseC_{base}.DnovelD_{novel}: новый набор данных класса, каждый класс включает небольшое количество помеченных образцов, но набор данных содержит большое количество немаркированных образцов. Содержащиеся в нем классы называютсяCnovelC_{novel}. Классы в новом классе и классы в базовом классе не пересекаются.

авторская цельОн заключается в изучении надежного классификатора, в основном с использованием небольшого количества помеченных образцов и большого количества немеченых образцов в новом классе. использовать базовый классDbaseD_{base}в качестве вспомогательного набора данных.

метод

Метод, предложенный автором, заключается в том, чтобы сначала использовать данные базового класса для предобучения модели. Затем эта предварительно обученная модель используется в качестве экстрактора признаков для извлечения признаков из небольшого числа помеченных образцов в новом классе. Затем эти признаки непосредственно используются в качестве начальных весов нового классификатора классов, и на этой основе производится дальнейшая тонкая настройка.

Средство извлечения предварительно обученных признаковИспользуйте данные в базовом классе для обучения этого средства извлечения признаков. Это то же самое, что и цель предварительного обучения трансферному обучению, максимально извлечь знания из базового класса, а затем передать их на обучение новому классу.

Вес отпечаткановый классDnovelD_{novel}N классов отбираются посередине, и каждый класс отбирает K помеченных отсчетов, что формирует N-ходовую проблему K-выстрелов. Эта часть отвечает на два вопроса: 1. Как сделать взвешивание выходных данных? 2. Что на самом деле делает классификатор?   Вес отпечаткаСм. уравнение 1 для основной формулы

wc=1Kk=1Kfe(xkc)(1)w_c=\frac{1}{K}\sum^{K}_{k=1}f^e(x^c_k)\tag{1}

Нижний индекс c представляет c-й класс,fef^eПредставляет экстрактор признаков, полученный на предыдущем этапе.xkcx^c_kпредставляет k-ю выборку c-го класса. Очевидно, что это среднее значение признаков, извлеченных из выборок N-way K-shot, и это среднее значение используется в качестве веса.

  Классификатор на самом делевычисляет сходство. см. формулу 2

fnovel(x)=[cos(θ(w1,x)),....cos(θ(wN,x))]'(2)f^{novel}(x)=[cos(\theta(w_1,x)),....cos(\theta(w_N,x))]^{\prime}\tag{2}
fnovel(fe(x))(3)f^{novel}(f^e(x))\tag{3}

Как видно из Уравнения 2 и Уравнения 3, классификатор нового класса фактически вычисляет косинусное сходство между признаками выборки x и средними признаками k-выборов. Класс с наибольшим сходством является наиболее предсказуемым классом. Однако это только начальное значение весов классификатора, и на следующем этапе требуется его тонкая настройка.

этап доводкиАвторы используют метод MixMatch для тонкой настройки классификатора. С одной стороны, MixMatch обладает превосходной производительностью в задачах обучения с полуучителем, а с другой стороны, MixMatch может эффективно использовать немаркированные данные. Пакет размеченных данных обозначается какL={(xi,pi)}i=1BL=\{(x_i,p_i)\}^{B}_{i=1}, пакет неразмеченных данных обозначается какU={xu}u=1UU=\{x_u\}^U_{u=1}.

  Ярлыки для немаркированных данныхЕго можно оценить по классификатору Выходных данных во второй части. Во-первых, улучшение данных выполняется для каждой выборки немаркированных данных для создания M расширенных версий, чтобы получить набор данных.{xu,1,...xu,M}\{x_{u,1},...x_{u,M}\}, ввод этих M версий выборок в один и тот же классификатор соответственно сгенерирует M различных прогнозов и возьмет среднее значение этих M значений прогнозов, см. Уравнение 4. Затем выполните операцию повышения резкости (T = 0,5), чтобы минимизировать энтропию неразмеченных данных, и результат после повышения резкости будет использоваться в качестве окончательной оценки, см. уравнение 5.

pˉu=1Mi=1Mf(xu,i)(4)\bar{p}_u=\frac{1}{M}\sum^{M}_{i=1}f(x_{u,i})\tag{4}
pu=pˉu1/T/j=1N(pˉu)j1/T(5)p_u=\bar{p}_{u}^{1/T}/\sum^N_{j=1}(\bar{p}_u)^{1/T}_j\tag{5}

  оптимизировать цельОн состоит из двух частей: одна — кросс-энтропийная потеря, а другая — самосогласованная потеря регуляризации, см. уравнение 6.

loss=1X1'(x,p)еX1'p log(f(x))+1NX2'(x,p)еX2'pf(x)22(6)loss=-\frac{1}{|\mathcal{X}^{'}_1|}\sum_{(x,p)\in \mathcal{X}^{'}_1}p\ log(f(x)) + \frac{1}{N|\mathcal{X}^{'}_2|}\sum_{(x,p)\in \mathcal{X}^{'}_2}||p-f(x)||^2_2\tag{6}

формулаf()f(·)Представляет новый классификатор классов, который используется для прогнозирования неразмеченных данных. Метод MixMatch использует метод увеличения данных Mixup, а именно создание смешанных образцов и смешанных меток. Первое местоLLиUUСлияние (слияние здесь должно быть слиянием в направлении оси = 0), а затем выполните операцию перемешивания, см. формулу 7, и вызовите полученный результат какW\mathcal{W}, затем поместите этоW\mathcal{W}Разделено на две части, см. уравнение 8. Это приводит к двум дополненным наборам данныхX1'\mathcal{X}^{\prime}_{1}иX2'\mathcal{X}^{\prime}_{2}. вX1'\mathcal{X}^{\prime}_{1}будетLLнабор данных иW\mathcal{W}первыйL|L|получают путем смешивания образцов.X2'\mathcal{X}^{\prime}_{2}будетUUиW\mathcal{W}остальныеU|U|получают путем смешивания образцов. Следовательно, метка для уравнения 6ppДолжна быть смешанная этикетка. Но почему вторая часть уравнения 6 имеет N.

W=Shuffle(Concat(L,U))(7)\mathcal{W}=Shuffle(Concat(L,U))\tag{7}
X1'=MixUp{Li,Wi}iе(1....L)X2'=MixUp{Ui,Wi+L}iе(1....U)(8)\mathcal{X}^{'}_{1}=MixUp\{L_i,\mathcal{W}_i\}\qquad i\in (1....|L|) \\ \mathcal{X}^{\prime}_{2}=MixUp\{U_i,\mathcal{W}_{i+|L|}\} \qquad i\in (1....|U|) \tag{8}

Обзор

1. Используйте набор данных базового класса для предварительной подготовки экстрактора признаков, который используется для извлечения признаков образцов нового класса, и возьмите среднее значение признаков образцов нового класса, чтобы отпечатать веса новых классификаторов классов. 2. Объедините образцы с помеченными данными и образцы без помеченных данных и перетасуйте, чтобы сформировать новый набор.W\mathcal{W}. Этикетки немеченых образцов могут быть получены импринтированными классификаторами. 3. Помеченный набор данных будетLLиW\mathcal{W}средний фронтL|L|Набор данных получается путем выполнения операции MixUp над образцами.X1'\mathcal{X}_1^{\prime},X2'\mathcal{X}^{\prime}_{2}будетUUиW\mathcal{W}остальныеU|U|получают путем смешивания образцов. 4. Используйте классификатор Imprint вX1'\mathcal{X}_1^{\prime}Рассчитайте кросс-энтропийную потерю, вX2'\mathcal{X}_2^{\prime}Вычислите самосогласованную потерю регуляризации. С потерями можно рассчитать градиент, а затем применить обратное распространение для обновления параметров модели.

приложение

Что представляет собой процесс MixMatchzhuanlan.zhihu.com/p/66281890