Введение в активное обучение: как значительно сократить расходы на маркировку

машинное обучение
Введение в активное обучение: как значительно сократить расходы на маркировку

Автор: Хоу Чаоцюнь (первый класс)

предисловие

С помощью больших данных и вычислительной мощности глубокое обучение запустило волну и достигло замечательных результатов во многих областях. Метод глубокого обучения, основанный на обучении с учителем, часто предполагает наличие большого количества помеченных образцов для обучения, и модель может получить более ценные знания (на левом рисунке ниже показаны три общих набора данных классификации изображений с десятками тысяч наборов данных. аннотированные образцы). Однако помеченных образцов для сценариев практического применения очень мало. Кроме того, маркировка большого количества образцов приведет к дорогостоящим затратам на маркировку (как показано на правом рисунке ниже, маркировка рентгеновского изображения занимает 5 минут и стоит около 30 юаней, а КТ-изображение требует 20 минут и стоит 70 юаней). юаней).

На огромном и сложном рынке электронной коммерции, основанном на дао, существует множество подобных потребностей: например, управление контентом сообщества, таким как Xianyu&Laiping и Yangtao, поиск изображений Polaroid и классификация одежды (например, iFashion). образцы в других сценариях. Подводя итог, можно сказать, что в сценариях практического применения «максимально снизить стоимость маркировки при условии, что модель обеспечивает целевую производительность» — это задача, которую необходимо решить в срочном порядке.

Как подобласть машинного обучения, активное обучение направлено на достижение целевой производительности модели с использованием как можно меньшего количества размеченных образцов и широко используется в практических целях. Ориентация этой статьи - введение в метод активного обучения.Основное содержание включает: 1) подробное введение в базовые знания об активном обучении, 2) краткое введение в исследовательский статус активного обучения в академических кругах, 3) часть практики активного обучения будет простой Представьте несколько случаев классификации изображений, 4) Ссылки и соответствующие материалы этой статьи будут даны в конце текста.

Основы активного обучения

Концепция и основной процесс активного обучения:

**Что такое активное обучение: **Берр Сеттлс[1] в статье «Обзор литературы об активном обучении» подробно описывает активное обучение: «Активное обучение — это подполе машинного обучения, также известное в статистике как изучение запросов или наиболее экспериментальная конструкция". Методы активного обучения пытаются решить узкое место маркировки образцов, активно выбирая для маркировки наиболее ценные немеченые образцы, чтобы достичь ожидаемой производительности модели с как можно меньшим количеством помеченных образцов.

**Основной процесс активного обучения:** Как показано на рисунке ниже, метод активного обучения представляет собой итеративный интерактивный процесс обучения, который в основном состоит из пяти основных частей, включая: немаркированный пул (немаркированный пул, обозначенный как U) , Стратегия выбора (выберите запросы, обозначенные как Q), аннотаторы в связанной области (аннотатор-человек, обозначенный как S), помеченный обучающий набор (помеченный как L) и целевая модель (модель машинного обучения, обозначенная как G ). Активное обучение объединяет пять вышеуказанных частей в один и тот же процесс и обновляет производительность модели, немаркированный пул выборок и помеченный набор данных в итеративном режиме обучения в последовательности, показанной на рисунке ниже, до тех пор, пока целевая модель не достигнет заданной производительности. Или пока данные аннотации больше не предоставляются. Среди них в каждом итерационном процессе количество помеченных образцов постоянно увеличивается, а производительность модели также улучшается (в идеале). В практических приложениях точность аннотатора должна быть максимально гарантирована, чтобы смягчить ошибку обучения модели на ранней стадии обучения (здесь она вызвана неправильно размеченными образцами).

Взаимосвязь между активным обучением, пассивным обучением и полуконтролируемым обучением:

**Активное обучение и пассивное обучение: **Как показано на рисунке (а) ниже, сплошная красная линия указывает на то, что в идеале производительность модели бесконечно возрастает с увеличением количества обучающих выборок аннотаций. На практике, как показано красной сплошной линией на рисунке (b) ниже, производительность модели не увеличивается бесконечно с увеличением количества размеченных данных. Кроме того, каждая модель будет иметь соответствующую пиковую производительность, и исследователи постоянно приближаются к производительности узких мест, увеличивая обучающие данные и корректируя параметры. Основная проблема активного обучения заключается в том, как использовать как можно меньше помеченных данных, чтобы достичь производительности модели, которая является узким местом, и тем самым сократить ненужные затраты на маркировку. Как показано синей пунктирной линией на рисунке (b) ниже, активное обучение выбирает наиболее ценные образцы в соответствии с соответствующей стратегией и сначала помечает их, а затем обучает модель, чтобы достичь производительности узкого места модели с меньшим количеством помеченных образцов.

**Активное обучение и частично контролируемое обучение:** В области машинного обучения его можно разделить на «обучение с учителем» и «обучение без учителя» в зависимости от того, требуется ли информация на этикетке образцов. Кроме того, алгоритмы, которые используют как немаркированные, так и маркированные образцы для машинного обучения, можно разделить на три категории: полууправляемое обучение, трансдуктивное обучение и активное обучение. Ссылка [21] кратко представляет сходства и различия между активным обучением и полууправляемым обучением: «Полууправляемое обучение и активное обучение выбирают некоторые ценные примеры из немаркированных примеров и добавляют их к отмеченному набору примеров, чтобы улучшить производительность.Точность классификатора может снизить нагрузку на экспертов предметной области.Однако методы обучения этих двух различны: обучение с полуучителем обычно не требует ручного участия.Одной из характеристик обучения, отличной от обучения с полуучителем, является что ему необходимо вручную и точно маркировать выбранные ценные образцы.Полуконтролируемое обучение заменяет ручную маркировку автоматической или полуавтоматической маркировкой с помощью компьютера, хотя это эффективно снижает стоимость маркировки, но ее результаты маркировки зависят от точности классификации эталонного классификатора, обученного с некоторыми помеченными примерами, поэтому нельзя гарантировать, что результаты маркировки будут полностью правильными. Напротив, образцы, выбранные с помощью активного обучения, помечаются вручную, что приводит к наименьшему количеству возможных классов ошибок. Стоит отметить, что многие исследователи пытались сочетать активное обучение и обучение с полуучителем и добились хороших результатов (в этой статье мы не будем вводить его в подробности и оставим это до следующей главы).

Основные стратегии активного обучения

Стратегия отбора образцов напрямую связана со степенью, в которой модель может сэкономить затраты на маркировку. Например, использование стратегии неопределенности может сохранить больше помеченных выборок, чем стратегия случайной выборки [4,5]. Поскольку стратегия случайной выборки не использует прогнозную информацию модели или структурную информацию большого количества немаркированных пулов образцов, только случайная выборка определяет образцы, которые должны быть помечены предпочтительно. Стратегия неопределенности, взаимодействуя с прогностической информацией модели, предпочтительно выбирает наиболее ценные образцы по сравнению с текущей моделью. В этом разделе мы обсудим некоторые из классических стратегий скрининга.

(1) Стратегия случайной выборки (случайная выборка, RS): RS не нужно взаимодействовать с результатами прогнозирования модели и напрямую выбирает партию образцов из немаркированного пула образцов с помощью случайных чисел для маркировки экспертами. Его часто используют как важнейший алгоритм активного обучения.Основные сравнительные эксперименты.

(2) Стратегия неопределенности (US): US предполагает, что выборки, наиболее близкие к гиперплоскости классификации, содержат больше информации, чем классификатор, и выбирает наиболее неопределенные выборки в соответствии с предсказанным значением выборок текущей моделью. US содержит некоторые основные меры: 1) Наименьшая достоверность (LC) принимает противоположность максимальной прогнозируемой вероятности в качестве показателя неопределенности выборки. 2) Margin Sampling (MS) считает, что выборки, находящиеся ближе к гиперплоскости классификации, имеют более высокую неопределенность, часто комбинируется с SVM и используется для решения задач бинарной классификации, но плохо работает в задачах мультиклассификации. 3) Неопределенность уровня нескольких классов (MCLU) является расширением MS для задач множественной классификации.MCLU выбирает две выборки, наиболее удаленные от интерфейса классификации, и использует разницу их расстояний в качестве критерия. MCLU может отфильтровывать наиболее неопределенные выборки в области смешанной категории, как показано в уравнении (2.3). Среди них xj представляет собой выбранную выборку, C представляет набор категорий, к которому принадлежит выборка xi, c+ представляет категорию, соответствующую максимальной прогнозируемой вероятности, а f (xi, c) представляет собой расстояние от выборки xi до гиперплоскости классификации . 4) Максимизация энтропии (Maximize Entropy, ME) отдает приоритет выбору выборок с большими значениями энтропии Значение энтропии можно рассчитать путем вычисленияполучается, где pi представляет прогнозируемое значение для i-го класса. 5) Лучший против второго лучшего (BvSB) [79] в основном является мерой для задач с несколькими классами и может смягчить плохую производительность ME в задачах с несколькими классами. BvSB рассматривает только две категории с наибольшим прогнозируемым значением выборки, игнорируя влияние других прогнозируемых категорий, поэтому он лучше влияет на проблемы множественной классификации.

(3) Query by Committee (QBC): QBC [31] — это стратегия выборки, основанная на сокращении пространства версий, и основная идея состоит в предпочтительном выборе немаркированных образцов, которые могут максимально сократить пространство версий. QBC состоит из двух основных этапов: 1) использование нескольких моделей для формирования комитета; 2) все модели в комитете делают прогнозы по немаркированным образцам по очереди и отдают приоритет образцам с наиболее непоследовательным голосованием для маркировки. Поскольку в процессе практического применения QBC необходимо обучать несколько моделей, он имеет высокую вычислительную сложность. На основании этого для решения проблемы вычислительной сложности были предложены методы Entropy Query-By-Bagging (EQB) [80] и Adaptive Maximize Disagree (AMD). Среди них EQB также представила метод наследования бэггинга и бутстрап-выборку; AMD в основном ориентировалась на многомерные данные, разделяя пространство признаков на определенное количество подмножеств и создавая комитеты.

(4) Другие классические стратегии: стратегия ожидаемой длины градиента (EGL) отдает приоритет образцам, которые оказывают наибольшее влияние на модель в соответствии с влиянием немаркированных образцов на текущую модель; EGL [4] является одним из репрезентативных методов, может быть применяется к любой модели на основе градиентного спуска. Стратегия уменьшения дисперсии (VR) может уменьшить ошибку обобщения модели за счет уменьшения выходной дисперсии [81,82] Джи и др. [82] предложили метод активного обучения для измерения VR на основе графа, построены аннотированные выборки. в том же графе, и каждая выборка распределяется по каждому узлу графа. Затем непосредственно предскажите метку, к которой принадлежит немеченый образец, путем согласования классификатора случайных полей Гаусса; в процессе оптимизации выберите набор немеченых образцов для предсказания и получите соответствующую предсказанную категорию, чтобы прогнозируемая дисперсия категории немеченого образца сведен к минимуму. .

Расширенный подход к активному обучению

В последние годы стратегии активного обучения дали замечательные результаты во многих сценариях практического применения. Но есть и проблемы, которые необходимо решать. Например, стратегия неопределенности обращает внимание только на неопределенность выборки, а в сценарии BMAL (метод пакетного активного обучения, количество выборок с N>1, выбираемых в каждой итерации) большое количество выборок с избыточной информацией будет быть сгенерирован. Таким образом, использование только одной стратегии еще не позволило добиться максимальной экономии затрат на аннотацию. В этом разделе кратко представлены несколько расширенных методов активного обучения, связанных с основной работой этой статьи.

(1) Активные методы обучения, которые сочетают в себе несколько основных стратегий: комбинированные стратегии объединяют несколько основных стратегий дополняющим образом и широко используются в задачах классификации изображений [36, 37, 38, 83]. Среди них Ли и др. [36] предложили структуру адаптивной комбинированной стратегии, основанную на модели вероятностной классификации. [36] учли информацию о немеченых образцах с помощью Измерения плотности информации, что компенсировало недостаток стратегии неопределенности. Как показано в алгоритме 2-2, этот алгоритм можно естественным образом распространить на большее количество комбинаторных стратегий.

(2) Метод активного обучения в сочетании с полууправляемым обучением: алгоритм самообучения является базовым методом полууправляемого обучения, и его основные этапы показаны в алгоритме 2-3. Поскольку алгоритм самообучения выберет подходящие образцы и соответствующие им прогнозируемые метки для добавления к обучающему набору в соответствии с прогнозной информацией модели в процессе обучения, а инициализация небольшого количества помеченных образцов может обеспечить первоначальную производительность модели. , поэтому процесс инициализации обучения будет использоваться для последующих Процесс обучения имеет решающее значение. Одна из проблем, которую должны решить алгоритмы обучения с полуучителем, заключается в том, что в процессе обучения легко ввести большое количество выборок шума, в результате чего модель не усваивает правильную информацию. Некоторые исследователи уменьшают количество зашумленных выборок, создавая алгоритмы совместного обучения нескольких классификаторов, такие как Co-Training [84] и Tri-Training [85].

(3) Методы активного обучения в сочетании с генеративно-состязательными сетями: модели генеративно-состязательных сетей (GAN) обучают большое количество немаркированных образцов без учителя и генерируют новые образцы с помощью генератора. Классический GAN [15] в основном состоит из двух основных частей, генератора и дискриминатора, которые обучаются друг против друга в игре, пока не достигнут состояния динамического равновесия. Целевая функция GAN показана в формуле (2.4), где V(G,D)=Ex∼Pdata [logD(x)]+Ex∼PG [log(1−D(x))] представляет истинное распределение data x Разница между ∼ Pdata и распределением x ∼ PG, полученным с помощью генеративной модели. Ссылки [19, 50] объединяют генератор со стратегией активного обучения и строят целевую функцию для управления образцами, сгенерированными генератором, путем решения задачи оптимизации.

Основные метрики оценки для активных методов обучения

В этой статье основное внимание уделяется эффективности метода активного обучения для экономии затрат на маркировку без потери точности модели Индекс оценки показан в следующей формуле. Среди них SavedRate представляет стоимость маркировки, уменьшенную методом активного обучения по сравнению с обучением с полной выборкой; ExpertAnnotated представляет количество выборок, отмеченных экспертами, когда модель достигает заданной целевой производительности; Full Samples представляет количество неразмеченных выборок, предоставленных текущий набор данных, то есть полновыборочное обучение количества используемых образцов аннотаций. Эксперименты, описанные в этой статье, сначала будут выполнять обучение с полной выборкой и зафиксируют наилучшую точность проверочного набора в качестве целевой точности алгоритмов, связанных с активным обучением. Например, используйте модель AlexNet для обучения изображений с маркировкой Full Samples в определенном наборе наборов данных, зафиксируйте наилучшую точность проверки в процессе обучения и используйте ее в качестве целевой точности активного обучения; затем модель постоянно улучшает свою производительность за счет итеративный процесс.Когда целевая степень точности достигнута, количество образцов, отмеченных экспертами, ExpertAnnotated, может быть записано, в это время может быть рассчитано значение SavedRate, то есть, сколько затрат на маркировку может быть сохранено за счет этого метод. Кроме того, мы также сравним метод активного обучения с некоторыми распространенными методами, такими как стратегия RS, которая часто используется для экспериментов по сравнительному анализу (базовый уровень).

Проблемы раннего активного обучения и решения

**Проблемы многоклассовой классификации**. При работе с проблемами многоклассовой классификации критерии отбора проб на основе маржинальной выборки игнорируют информацию о том, что пробы могут принадлежать другим классам, поэтому выбранные пробы имеют низкое качество. Хотя основанный на энтропии метод «Исследование алгоритмов активного обучения, основанных на неопределенности (2011)» рассматривает вероятность принадлежности примера к каждой категории, в задачах классификации с несколькими классами на энтропию примера также влияют эти неважные категории. вмешательство. В литературе «Многоклассовое активное обучение для классификации изображений (2009 г.)» предлагается критерий (BvSB), основанный на оптимальной метке и субоптимальной метке, с учетом первых 2 категорий с наибольшей вероятностью выборки, игнорируя остальные категории выборки. критерии выбора результирующих помех. В документе «Многоклассовая классификация изображений на основе активного обучения и полууправляемого обучения (2011)» представлены BvSB и ограниченное самообучение (CST) в классификации изображений на основе SVM, что значительно повысило точность классификации.

** Отдельные точки в выборке: ** Если репрезентативность и неопределенность выборки всесторонне учитываются при отборе выборки, сбора отдельных точек обычно можно избежать. Пример метода выбора, который всесторонне использует информацию о кластеризации и интервалы классификации, предлагается в статье «Активное обучение путем запроса информативных и репрезентативных примеров (2010 г.)»; в статье «Активное обучение с использованием модели вариационной обработки Дирихле для предварительной кластеризации и классификации подводных Стереоизображение (2011 г.)» предложил метод активного обучения, который использует предварительную кластеризацию для помощи в выборе репрезентативных выборок; литература «Двойная стратегия активного обучения (2007 г.)» использует неопределенность выборок и плотность их априорного распределения для выполнения отбор для получения качественных выборок; в литературе «Исследование управляемых алгоритмов активного обучения на основе комбинации неопределенности выборки и репрезентативности (2009)» в качестве показателя для измерения репрезентативности выборок используется плотность распределения выборок в сочетании с энтропией As индикатора неопределенности, предложена стратегия отбора выборки на основе энтропии плотности, эффективно решающая влияние выбросов на качество выборки.

** Избыточность обучающей выборки: ** Как показано на рисунке ниже, в новых обучающих выборках, представленных синими кружками, расстояние между образцом 1 и гиперплоскостью классификации меньше, чем у образца 2. Согласно критерию BvSB, образец 1 должен быть выбран для Annotated и добавлен в обучающий набор, но зеленый образец a рядом с образцом 1 уже находится в обучающем наборе, и если образец 1 будет добавлен в это время, это мало повлияет на интерфейс классификации. Напротив, добавление примера 2 в обучающий набор вносит больший вклад в обучение текущей модели классификации. Из вышеприведенного анализа видно, что меры выбора выборки в активном обучении в основном делятся на два типа: 1) меры неопределенности; 2) меры различия или репрезентативные меры. Неопределенность выборки в общем случае можно получить, вычислив ее информационную энтропию, о репрезентативности выборки обычно можно судить по тому, находится ли она в центре кластера, а разность выборки можно вычислить, вычислив косинусное сходство (на основе стратегия активной выборки) Research Progress of Learning Algorithms, 2012) или полученные с помощью функции ядра Гаусса (Алгоритм классификации настроений для китайских обзоров на основе многофункционального слияния, 2015).

** Несбалансированные наборы данных: ** В документе «Новый алгоритм активного обучения SVM и его применение при обнаружении препятствий (2009 г.)» предложен алгоритм активного обучения KSVMactive; в документе «Классификация взвешенных машин опорных векторов на основе активного обучения» (2009 г.) улучшенная модель машины с взвешенными опорными векторами; в документе «Исследование алгоритмов активного обучения на основе экспертного комитета (2010)» предложен алгоритм активного обучения, основанный на коррекции положения гиперплоскости SVM.

Исследовательский статус активного обучения:

В этом разделе будет обсуждаться исследовательский статус активных методов обучения по следующим пунктам, в том числе: 1) стратегии активного обучения, основанные на немаркированных пулах образцов, 2) методы пакетного активного обучения с упором на комбинаторные стратегии и внедрение методов обучения алгоритмов активной кластеризации; 3) полууправляемые активные методы обучения, 4) активные методы обучения в сочетании с генеративно-состязательными сетями. Кроме того, прогресс активных методов обучения в последние годы не ограничивается вышеупомянутыми методами классификации.В этом разделе они обобщены в разделе «Другие основные методы активного обучения» (ссылки, связанные с этой статьей, могут быть предоставлены через ссылки в конце статьи, полученной по ссылке).

(1) Обзор методов активного обучения: основная идея активного обучения как подполя машинного обучения состоит в том, чтобы найти наиболее «ценные» обучающие образцы с помощью некоторых эвристических стратегий, чтобы модель могла достичь ожидаемого эффекта или даже превзойти его. . Концепция активного обучения была предложена Саймоном [23] в 1974 г. Впоследствии во многих областях появились методы активного обучения, которые далее обобщаются в генеративный запрос на членство (синтез запроса на членство), методы активного обучения в потоковом режиме (выборочная выборка на основе потоков) и методы активного обучения на основе немаркированных пулов образцов (пул). Основанный на сэмплировании) и других классических сценах [4]. Англюин и др. [24] предложили сценарий генеративного запроса членов в 1988 году, в котором модель управляет созданием новых выборок с помощью заданных условий и запрашивает метки у экспертов по маркировке; из-за ограниченных возможностей модели генерации в то время, и невозможность лучше контролировать генерацию. Поэтому сфера применения таких методов не расширялась. Атлас и др. [25] предложили метод, основанный на потоке данных в 1990 году, и модель оценивает, нужно ли маркировать образцы по порядку. Поскольку метод на основе потока данных не требует равномерного размещения всех выборок в пуле, он подходит для ситуаций с небольшим объемом памяти и ограниченной вычислительной мощностью (например, применительно к мобильным устройствам), но самым большим недостатком является то, что структура образцы не могут быть получены распределенными. Напротив, метод активного обучения, основанный на пуле немаркированных образцов [26], включает большое количество немаркированных образцов в пул немаркированных образцов и выбирает наиболее «ценные» образцы из пула немаркированных образцов путем разработки стратегии отбора образцов. . Кроме того, благодаря буму Интернета и постоянному совершенствованию технологии сбора данных большое количество неразмеченных данных может быть получено по низкой цене во многих областях. Таким образом, активные методы обучения, основанные на пулах немаркированных образцов, являются наиболее популярными и широко используемыми в различных областях и играют очень важную роль в приложениях машинного обучения и интеллектуального анализа данных.

(2) Метод активного обучения на основе немаркированного пула образцов: Качество стратегии скрининга образцов напрямую влияет на эффект активного метода обучения на основе немаркированного пула образцов. В настоящее время некоторые разработанные вручную стратегии постоянно предлагаются и применяются к активным методам обучения, таким как стратегии неопределенности и стратегии представления. Ссылки [27, 28] представляют наиболее неопределенные выборки путем вычисления информационной энтропии. Ссылки [12, 29, 30] используют SVM в качестве целевого классификатора, выбирая образец, ближайший к опорному вектору, как наиболее неопределенный образец. Сенг и др. [31] впервые предложили алгоритм скрининга на основе комитетов (Query-by-Committee, QBC), который сначала обучил набор классификаторов для формирования комитета. Сразу же после этого комитет проголосовал за решение, какой образец следует подвергнуть скринингу как наиболее сомнительный. Впоследствии постоянно предлагались некоторые усовершенствованные методы, основанные на QBC: например, Query-by-Bagging (QBBAG), основанный на Bagging, предложенный Брейманом и др. [32], и Query-by-Boosting (QBB), основанный на Boosting, предложенный Брейманом и др. [32]. Мамицука и др. [33]. Для репрезентативной стратегии образцов в литературе [34, 35] цель использования немеченых образцов достигается за счет использования априорной плотности немеченых образцов (PriorDensity) в качестве веса индикатора неопределенности. [28] предложил аналогичную структуру, используя косинусное расстояние для измерения плотности информации.

(3) Метод активного обучения в пакетном режиме (BMAL): в настоящее время большинство активных методов обучения имеют общую проблему: последовательный отбор образцов, то есть выбор одного образца для маркировки каждой итерации, что очень неэффективно и не может удовлетворить большинство практических потребностей. . В практических приложениях часто требуется параллельная обработка в распределенной форме, и несколько экспертов по аннотации одновременно аннотируют образцы в разных средах. BMAL стремится генерировать пакет немаркированных образцов в каждой итерации и одновременно предоставлять их нескольким аннотаторам, что значительно повышает эффективность приложения. Во время разработки BMAL сначала проводились исследования, пытающиеся применить множество различных прогностических моделей к разным стратегиям. Однако, когда они проверяли образцы, они использовали только один показатель неопределенности или активную стратегию выбора показателей разнообразия, что приводило к большому количеству избыточной информации в отобранных образцах, что приводило к дополнительным затратам на маркировку. Основываясь на этом, Ли и др. [36] предложили новую адаптивную комбинаторную стратегию скрининга выборки, которая сочетает в себе стратегию неопределенности и индекс плотности информации. На каждой итерации путем адаптивной корректировки весов двух стратегий выбираются наиболее «ценные» образцы для маркировки экспертами, а эффективность предлагаемого метода проверяется на трех наборах наборов данных классификации изображений. Гу и др. [37] предложили BMAL, ориентированную на мультиклассификацию, которая объединила стратегию неопределенности и стратегию разнообразия, и проверила ее на двух наборах наборов данных классификации изображений.Наиболее неопределенный и разнообразный образец. Чжоу и др. [38] предложили метод AIFT и применили его к области медицинских изображений, объединив индикаторы неопределенности и индикаторы разнообразия, а также внедрили такие методы, как перенос обучения и увеличение данных, и подтвердили, что метод может уменьшить аннотацию по крайней мере. половина стоимости. Cardoso и др. [39] предложили метод активного обучения пакетной сортировке (RBMAL), основанный на традиционном BMAL, который определяет приоритет маркируемых образцов путем создания оптимизированной таблицы сортировки. RBMAL избегает немаркированных образцов, которые эксперты по маркировке часто ждут для выбора.Экспериментальные результаты показывают, что RBMAL может значительно снизить стоимость маркировки, обеспечивая или даже улучшая производительность модели. Кроме того, чтобы в полной мере использовать информацию большого количества немаркированных образцов, некоторые исследователи [40, 41, 42] пытались внедрить в активное обучение алгоритмы кластеризации. Однако большинство современных методов кластеризации сначала извлекают признаки вручную перед кластеризацией, которая в значительной степени ограничивается качеством признаков. Мы пытаемся применить сверточный алгоритм кластеризации автоэнкодера [43] к BMAL путем сквозной интеграции алгоритмов выделения признаков и кластеризации в одну и ту же модель (не представлено в этой статье). Это может не только улучшить производительность кластеризации, но и использовать преимущества сверточной нейронной сети для обработки более сложных изображений.

(4) Полууправляемый метод активного обучения: Полууправляемое обучение может обучать модель с небольшими затратами на маркировку, выбирая образцы с четкими результатами прогнозирования и маркируя их непосредственно моделью, но легко генерировать шумовые метки. Активное обучение, с другой стороны, выбирает выборки с наиболее неопределенными результатами прогнозирования для маркировки экспертами, что может обеспечить качество маркировки. Таким образом, сочетание полууправляемых методов обучения и активных методов обучения может в определенной степени дополнять друг друга. В 1998 году McCallumzy и др. [44] впервые объединили алгоритмы QBC и Expectation-Maximization (EM), используя наивный байесовский метод в качестве классификатора и проводя эксперименты по задачам классификации текста. Впоследствии Muslea и др. [45] предложили усовершенствованный метод QBC, Co-Testing, с помощью которого два классификатора, обученные с разных точек зрения, совместно отбирают образцы и маркируют их для экспертов, а также комбинируют их с максимальным совместным ожиданием Co-EM (Co-EM). -EM) комбинация алгоритмов. [46] попытались объединить методы совместного тестирования и совместного обучения и проверили преимущества алгоритма в задачах поиска изображений. Кроме того, в литературе [47, 48, 49] сочетаются стратегии неопределенности и методы самообучения (самообучение). Вышеупомянутые методы умело сочетают полууправляемое обучение и активное обучение, в полной мере используют их соответствующие преимущества и компенсируют их недостатки и достигли замечательных результатов. Однако современные полууправляемые методы активного обучения неэффективно справляются с зашумленными образцами, поэтому они по-прежнему оказывают большое влияние на модель.

(5) Метод активного обучения в сочетании с генеративно-состязательной сетью: GAN имеют большое значение для повышения эффективности скрининга выборки методов активного обучения. В работах [19, 50] стратегия активного обучения сочетается с генератором для построения целевой функции.Решая задачу оптимизации, генератор может напрямую генерировать целевую выборку, что повышает эффективность отсеивания выборок. [20] впервые использовали GAN для генерации пакета выборок в направлении, перпендикулярном границе решения текущего классификатора. Затем найдите место, где категория изменяется от сгенерированных образцов посредством визуализации, и добавьте его в набор образцов, которые нужно пометить. Наконец, эффективность метода подтверждается большим количеством экспериментов по классификации изображений. Кроме того, помимо задач классификации изображений, комбинация методов активного обучения и GAN также широко используется в других областях, таких как обнаружение выбросов [21].

(6) Другие основные методы активного обучения: Хуанг и др. [51] предложили метод активного обучения для глубоких нейронных сетей, который может переносить предварительно обученные глубокие модели на другие задачи с меньшим количеством помеченных образцов, тем самым снижая стоимость обучения глубоких нейронных сетей. нейронные сети. Хуанг и др. [52] предложили метод, сочетающий методы активного обучения и заполнения матрицы, который может эффективно использовать информацию о метках и снизить затраты на извлечение признаков в случае отсутствия серьезных признаков. [53] считали, что существует эффективный опыт активных стратегий обучения, применяемых к различным наборам данных, и этот опыт может быть перенесен на другие наборы данных для повышения эффективности модели или стратегии. Автор пытается перенести модель на разные наборы данных, и экспериментальная часть доказывает, что большинство текущих стратегий не только имеют эффективный опыт, но и опыт можно перенести на разные наборы данных и повысить производительность задач изучения признаков. (7) NAS + активное обучение: Наконец, стоит отметить, что при рассмотрении вышеупомянутого метода активного обучения модель задачи выбирается из готовых моделей в соответствии с априорными знаниями, то есть сетевой структурой системы. модель фиксированная. Имеются следующие дефекты: 1) нет готовых моделей во многих областях, таких как область медицинских изображений; 2) в процессе ранней итерации количество размеченных образцов мало, и модель с фиксированным сетевая структура (обычно немного более сложная) может попасть в перерасход. Как показано на рисунке ниже, Гейфман и др. впервые попытались применить NAS к методу активного обучения, чтобы сетевая структура модели могла адаптироваться к вновь добавленным размеченным данным. Результаты экспериментов показывают, что эффективность метода активного обучения после добавления NAS значительно выше, чем у метода активного обучения с фиксированной структурой сети.

Активное обучение и практика: небольшой тест

Простой пример того, как активное обучение уменьшает помеченные образцы

Как показано на рисунке ниже, литература «Обзор литературы по активному обучению» представляет пример активного обучения на основе пула. Среди них набор данных (игрушечные данные) представляет собой 400 выборок, сгенерированных из распределения Гаусса, и задача представляет собой проблему классификации 2 (200 выборок на класс), Эти данные отображаются в двухмерном пространстве признаков, как показано на (а) ; На рисунке (b) используется модель логистической регрессии. При обучении 30 случайно выбранных помеченных образцов достигается точность проверки 70%. Синяя линия представляет собой границу решения; На рисунке (c) также используется модель логистической регрессии, но обучение 30 аннотированных образцов выбираются с помощью стратегии активного обучения (неопределенная стратегия) для достижения точности проверки 90%. Этот простой случай демонстрирует эффект внедрения стратегии активного обучения, а использование 30 размеченных образцов может повысить точность на 20%. Стоит отметить, что выборки вышеперечисленных 2-х категорий составляют 200 соответственно, и данные выборки очень сбалансированы. Однако в практических приложениях соотношение данных засекреченных выборок часто не может достигать 1:1, и исследователи в смежных областях пытаются решить такие задачи.

Практика с наборами данных классификации изображений

Как показано в Алгоритме 2-1, дан «метод активного обучения, основанный на размеченном пуле образцов». Эта статья также подробно описывает основной процесс активного обучения в первой части, который здесь повторяться не будет.

В практической части, представленной в этой статье, проводятся эксперименты на трех наборах данных MNIST, Cifar-10 и Dog-Cat по алгоритму 2-1 (модель классификации использует AlexNet, а фреймворк глубокого обучения использует PyTorch). Как показано в таблице ниже, в эксперименте с набором данных MNIST (train_num=55000, val_num = 10000): 1) Используя все 55 000 обучающих данных для непосредственного обучения модели, уровень точности, полученный на 10 000 проверочном наборе, составляет 98,99%; 2) При использовании стратегии неопределенности активного обучения требуется всего 5000 помеченных образцов, а уровень точности, полученный в том же 10000 проверочном наборе, достигает 99,14%. Кроме того, обученная модель используется для прогнозирования оставшихся 50000 (55000-5000) выборок, и эффект составляет 99,70%. Можно видеть, что простое использование стратегии неопределенности в наборе данных MNIST может значительно снизить затраты на аннотации.

Стоит отметить, что три набора наборов данных классификации изображений acc_left_active_samples, показанные в таблице, имеют высокую точность. Эта часть выборок представляет собой образцы, которые не были проверены стратегией активного обучения, то есть текущая модель уже имеет возможность распознавать эту часть образцов. Следовательно, когда точность модели в наборе обучающих данных достигает 99,4%, точность прогнозирования выборки acc_left_active_samples с использованием текущей модели также составляет около 99,378% или даже выше.

Вопрос 1. Почему активное обучение иногда повышает точность моделей классификации? Объяснение, данное в «Прогрессе исследований алгоритмов активного обучения», опубликованном Ян Вэньчжу и др., заключается в том, что в помеченных образцах могут быть образцы низкого качества, что снизит надежность модели (модели переобучают точки шума). Как эффективно выбрать немаркированные примеры с высоким вкладом в классификацию для маркировки и добавить их в существующий обучающий набор, чтобы постепенно повысить точность и надежность классификатора, является ключевой проблемой, которую необходимо решить при активном обучении.

Вопрос 2: Как реализовать стратегию неопределенности? Сосредоточьтесь на максимальном значении вероятности каждого результата прогнозирования выборки: p_pred_max. Мы изначально полагаем, что случай p_pred_max>0,5 указывает на то, что текущая модель имеет определенный результат классификации для выборки (правильный результат классификации здесь не важен); напротив, текущая модель оценивает выборку неоднозначно. результаты, помеченные как жесткая выборка; Например: модель делает первый прогноз, получает 10 значений вероятности и принимает максимальную вероятность p_pred_max; сортирует выборки с P(реальная метка)

Проблема двух категорий продуктов Amoy:

Справочная информация. Атрибуты товаров, состоящих из одной или нескольких упаковок, влияют на восприятие покупателями цен на товары. Например, некоторые свойства мультиупаковки имеют более высокую цену, но фактическая цена за единицу уже может быть очень рентабельной, и клиенты ошибочно считают цену мультиупаковки ценой за единицу, что приводит к снижению покупательских намерений. Следовательно, очень важно различать атрибуты упаковки товаров для улучшения покупательского намерения покупателей и оптимизации распределения цен на товары. Существует несколько различных решений этой проблемы. Среди них метод классификации на основе изображений может напрямую различать атрибуты товаров с одной или несколькими упаковками. Однако обучение с учителем требует большого количества образцов аннотаций, и многие категории будут генерировать большое количество требований к аннотациям.Также большое значение имеет то, как значительно снизить стоимость аннотаций. Поэтому мы пытаемся применить метод активного обучения к классификации изображений, чтобы решить проблему бинарной классификации однопакетных и многопакетных изображений. Как показано на рисунке ниже, мы сравниваем стратегию случайного скрининга и неопределенную стратегию соответственно. Экспериментальные результаты показывают, что введение стратегии неопределенности для активного скрининга образцов может значительно снизить стоимость маркировки.

Кроме того, мы попробовали более сложную модель (DesNet121), которая улучшила обучаемость модели, но также привела к увеличению времени обучения. Но общая точность классификации улучшилась на 3 балла. В то же время мы также проверили эффективность предварительного обучения моделей на таких моделях, как AlexNet и DenseNet121.

использованная литература:

В этой статье много ссылок. Из-за нехватки места, пожалуйста, обратитесь к: •blog.CSDN.net/H даже супер _…blog.CSDN.net/H даже супер _…