Сердце машины Оригинал
Автор: У Цзиин Монтажер: Хао ВанПопулярные и применяемые в настоящее время методы или модели машинного обучения в основном решают задачу классификации, т. е. по заданному набору данных (текст, изображения, видео и т. д.), определяют категорию данных или классифицируют аналогичные данные и т. д. Процесс обучения зависит на обучающих данных набора помеченных категорий. В экспериментальных условиях эти методы или модели могут обеспечить лучшие результаты обработки на крупномасштабных обучающих выборках. Однако в прикладном сценарии данные, которые можно получить, фактически не обрабатываются путем маркировки вручную, а трудозатраты и временные затраты на маркировку данных огромны. В некоторых специализированных областях применения, таких как обработка медицинских изображений, только профессиональные врачи в специализированных дисциплинах могут выполнять аннотацию данных медицинских изображений. Очевидно, что ни один из методов или моделей, которые должны полагаться на большую обучающую выборку для использования в этом случае, больше не применим. Чтобы уменьшить зависимость от размеченных данных, исследователи предложили активное обучение (Active Learning). Учебный) метод. Активное обучение использует определенную стратегию, чтобы найти наиболее ценные данные в выборке данных, которые не были помечены категориями.После передачи их экспертам для ручной маркировки, помеченные данные и их метки категорий включаются в обучающий набор.Итеративно оптимизирует модель классификации и улучшает эффект обработки модели. В зависимости от способа получения наиболее ценных выборочных данных современные методы активного обучения в основном включают в себя основанные на пуле данные.Метод получения запроса(получение запросов/на основе пула) иметод синтеза запросов(запросно-синтезирующий) два. Активное обучение, предложенное в последние годы, в основном представляет собой метод получения запроса, то есть путем разработки стратегии запроса (правила выборки) для выбора выборочных данных с наиболее ценной информацией. В отличие от метода получения запроса, который «выбирает» образцы, метод синтеза запроса «генерирует» образцы. Методы синтеза запросов используют генеративные модели, такие как генеративно-состязательные сети (GAN, Генеративно-состязательные сети) и т. д., напрямую генерируют образцы данных для обучения модели. Мы выбрали для целевого анализа три статьи об активных методах обучения с конференции по машинному обучению 2019. Эти три статьи:-
Потеря обучения для активного обучения (CVPR 2019, устно)
-
Вариационно-состязательное активное обучение (ICCV 2019, устно)
-
Bayesian Generative Active Deep Learning (ICML 2019)
-
Мы предлагаем простой, но эффективный метод активного обучения с модулем прогнозирования потерь, который можно напрямую применить к любой задаче глубоких сетей.
-
Используя существующие сетевые архитектуры, предлагаемый метод оценивается с помощью трех обучающих задач: классификации, регрессии и смешивания.
-
База данных: в этом документе выбрана база данных CIFAR-10 с использованием 50 000 изображений в качестве обучающего набора и 10 000 изображений в качестве тестового набора. Из-за большого количества обучающих наборов данных в этой статье выбирается случайное подмножество (размером 10000) на каждом этапе активного цикла обучения и отбираются из него K наиболее неопределенных выборок.
-
Целевой модуль: ResNet-18.
-
Модуль прогнозирования убытков: ResNet-18 состоит из 4-х базовых блоков {convi_1; convi_2 j| i=2; 3; 4; 5}, каждый из которых состоит из двух слоев. Модуль прогнозирования потерь подключен к каждому базовому блоку, и потери оцениваются с использованием 4 функций в блоке.
-
Алгоритмы экспериментального сравнения: случайная выборка, выборка на основе энтропии, выборка по базовому набору.
-
База данных: В этом документе выбрана база данных PASCAL VOC 2007+2010. Из-за небольшого количества данных в обучающей выборке эксперименту не нужно выбирать случайное подмножество для извлечения K наиболее неточных выборок.
-
Целевой модуль: Однокадровый многоблочный детектор (SSD).
-
Модуль прогнозирования потерь: SSD извлекает ограничивающие прямоугольники и их классы {convi | i=4_3; 7; 8_2; 9_2; 10_2; 11_2} из 6-уровневых карт объектов. Модуль прогнозирования потерь подключен к каждому базовому блоку, и потери оцениваются с использованием 6 функций в блоке.
-
Алгоритмы экспериментального сравнения: случайная выборка, выборка на основе энтропии, выборка по базовому набору.
-
База данных: в этой статье выбирается база данных MPII. Из-за большого количества обучающих наборов данных в этой статье выбирается случайное подмножество (размером 5000) на каждом этапе активного цикла обучения и отбираются из него K наиболее неопределенных выборок.
-
Целевой модуль: Многоуровневые сети песочных часов.
-
Модуль прогнозирования убытков: карта функций Stacked Hourglass Networks (H, W, C) = (64,64,256). В этой статье используются две карты функций, к каждой из которых подключается модуль прогнозирования потерь, с использованием 2 функций для оценки потерь.
-
Алгоритмы экспериментального сравнения: случайная выборка, выборка на основе энтропии, выборка по базовому набору.
Рисунок 8:Точность прогнозирования убытков модуля прогнозирования убытков
Резюме и анализВ этой статье предлагается новый метод активного обучения, применимый к различным текущим сетям глубокого обучения. В этой статье проверяется эффективность метода на трех основных задачах визуального распознавания и популярных сетевых структурах. Хотя экспериментальные результаты доказывают, что метод эффективен, стратегия выборки этого метода не учитывает характеристики разнообразия или плотности данных. Кроме того, в сложных задачах, таких как обнаружение объекта и оценка положения, точность прогнозирования потерь относительно низкая (как показано на рис. 8), что будет в центре внимания последующих исследований.2. Вариационно-состязательное активное обучение (ICCV 2019, устно) Оригинальный адрес: https://arxiv.org/pdf/1904.00370 В этой статье предлагается модель вариационного состязательного активного обучения (VAAL), в которой используются вариационные автоэнкодеры (VAE) и состязательные сети для изучения распределения помеченных данных в скрытом пространстве. В минимаксной игре между VAE и враждебной сетью VAE обучается обманом враждебной сети предсказывать все данные как помеченные данные; враждебная сеть обучается различать распределение различных типов данных в скрытом пространстве, тем самым различая помеченные данные данных и немаркированные данные. Общая структура VAAL показана на рисунке 1. Рисунок 1:Модель изучает распределение помеченных данных в скрытом пространстве с помощью алгоритма VAE, в котором используются два метода оптимизации: реконструкция и состязательная потеря. Анализ алгоритмовВо-первых, мы используем VAE для изучения представлений помеченных и немеченых данных в скрытом пространстве, где кодировщик использует гауссиан до изучения низкоразмерного пространства базового распределения, а декодер реконструирует данные. Целевая функция VAE состоит в том, чтобы минимизировать вариационную нижнюю границу предельной вероятности правдоподобия для данной выборки: где p и q представляют кодировщик и декодер соответственно, а p(z) — априорное гауссовское знание. Представление скрытого пространства, изученное VAE, представляет собой смесь скрытых функций, связанных с помеченными и неразмеченными данными. Второй шаг, стратегия выборки в этой статье, заключается в том, чтобы обучить состязательную сеть тому, как различать закодированные признаки различных классов данных в скрытом пространстве. Обучите враждебную сеть отображать скрытые представления в двоичные метки: 1, если данные выборки помечены, 0 в противном случае.На предыдущем этапе обработки VAE сопоставляет размеченные и неразмеченные данные с одним и тем же скрытым пространством с похожими распределениями вероятностей, что обманывает дискриминатор, определяя все входные данные как размеченные данные. Дискриминатор, с другой стороны, пытается эффективно оценить вероятность того, что данные принадлежат неразмеченным данным. Целевая функция противоборствующей роли VAE выражается как: где L_bce — простая бинарная кросс-энтропийная функция стоимости. Из приведенного выше анализа полная целевая функция VAE в VAAL выглядит следующим образом: Из-за разного уровня квалификации людей, занимающихся аннотированием данных, результаты экспертного аннотирования (Oracle) не являются полностью надежными. В этой статье предполагается, что существует два типа оракулов: идеальные оракулы, которые всегда дают правильные метки, и зашумленные оракулы, которые невольно дают неправильные метки для некоторых конкретных классов. Чтобы более реалистично оценить эффект VAAL в случае зашумленных оракулов, в этой статье добавляется целевой шум, используется вероятность, связанная с предсказанием дискриминатора, в качестве элемента оценки, и в каждой партии образцов собираются выборки B с наименьшей достоверностью. и отправляет их к оракулу.Результаты экспериментов
Условия эксперимента в этой статье: соотношение размеченных и неразмеченных данных в начальной обучающей выборке составляет 10% и 90%. Выберите образцы, которые должны быть помечены Oracle, из немаркированного набора данных, добавьте эти данные в начальный обучающий набор после маркировки и повторите обучение в новом обучающем наборе. Эксперименты оценивают производительность VAAL в классификации и сегментации изображений по точности и среднему IoU.Когда доступны метки, предоставленные Oracle, они составляют 10%, 15%, 20%, 25%, 30%, 35% обучающего набора, соответственно., 40% соотношение на обучение. За исключением ImageNet, окончательные результаты представляют собой среднее значение пяти экспериментальных результатов. Результаты в ImageNet представляют собой среднее значение двух экспериментов с использованием 10%, 15%, 20%, 25% и 30% обучающих данных.классификация изображенийРезультаты эксперимента показаны на рисунке 2.-
Базы данных: CIFAR10, CIFAR100, Caltech-256, ImageNet.
-
Алгоритмы сравнения: случайная выборка, базовый набор, отсев по методу Монте-Карло, ансамбли с использованием коэффициентов вариации, глубокий байесовский AL (DBAL).
-
Базы данных: BDD100K, Городские пейзажи.
-
Алгоритмы сравнения: случайная выборка, Core-set, Monte-Carlo Dropout, Query-By-Committee (QBC), предлагаемая аннотация (SA).
При различных соотношениях размеченных данных VAAL достигает самого высокого среднего показателя IoU как в базах данных Cityscapes, так и в базах данных BDD100K. VAAL достигает %mIoU 57,2 и 42,3, используя только 40% размеченных данных. При использовании 100% размеченных данных VAAL может достичь %mIoU 62,95 и 44,95 как в базах данных Cityscapes, так и в базах данных BDD100K. Далее в этой статье проводятся эксперименты в библиотеке BDD100K для проверки эффективности VAE и дискриминатора, принятых в этом методе. Эксперименты рассматривают три случая: 1) отменить VAE; 2) при заданном дискриминаторе исправить VAE; 3) отменить дискриминатор. Результаты эксперимента показаны на рисунке 4. Рисунок 4:Анализ результатов контрольных переменных для VAE и эффектов дискриминатора. Экспериментальные результаты показывают, что, поскольку дискриминатор используется только для хранения данных, модель с одним только дискриминатором работает хуже всего. В дополнение к изучению скрытого пространства VAE также может использовать дискриминатор для выполнения игры минимум-макс, чтобы избежать переобучения. VAAL может эффективно изучать неопределенность состязательной игры между VAE и дискриминатором, и экспериментальный эффект является лучшим. Наконец, в этой статье представлены начальное смещение метки (смещение), ожидаемый масштаб (бюджет) и влияние шума на VAAL в библиотеке CIFAR 100. Экспериментальные результаты показаны на рисунке 5. Эксперимент доказывает устойчивость VAAL к различным параметры. Рисунок 5:Устойчивость VAAL к зашумленным меткам, размеру бюджета и необъективному начальному объединению меток была проанализирована с использованием CIFAR100. Резюме и анализКлючом к VAAL является изучение как VAE, так и противоборствующей сети состязательным способом, чтобы найти наиболее ценную стратегию выборки (критерии). В этой статье VAAL тщательно оценивается на различных наборах эталонных данных классификации изображений и семантической сегментации, и VAAL достигает хороших результатов на CIFAR10/100, CALTECH-256, IMAGENET, CITYSCAPE и BDD100K. Экспериментальные результаты демонстрируют, что наш состязательный метод способен изучать эффективные низкоразмерные скрытые пространства в крупномасштабных наборах данных и обеспечивает эффективные с точки зрения вычислений стратегии выборки.3. Байесовское генеративное активное глубокое обучение (ICML 2019) Оригинальный адрес: https://arxiv.org/pdf/1904.11643.pdfВ этой статье предлагается новая байесовская генеративная активная модель глубокого обучения, целью которой является дополнение аннотированных наборов данных сгенерированными образцами, полезными для процесса обучения. В этой статье используется байесовское активное обучение по разногласию (BALD) для выборки из немаркированных наборов данных и используется состязательная модель VAE-ACGAN ((вариационный автоэнкодер, VAE)-(генеративный состязательный вспомогательный классификатор) после того, как образцы помечены экспертными сетями, ACGAN )) для создания новых искусственных образцов с информацией, аналогичной входным образцам. Добавьте новые образцы в помеченный набор данных для итеративного обучения модели. Исследование в этой статье в основном основано на недавно предложенном методе генеративно-состязательного активного обучения (GAAL) (Zhu and Bento, 2017 (https://arxiv.org/abs/1702.07956v5)), который отличается от традиционных методов активного обучения. которые выбирают наиболее информативные выборки на основе стратегии выборки, GAAL полагается на проблему оптимизации для создания новых выборок (эта оптимизация уравновешивает информативность выборки и качество генерации изображения). Байесовская генеративно-активная модель глубокого обучения, предложенная в этой статье, использует традиционные методы активного обучения на основе пула для выбора образцов, а затем использует генеративно-состязательную модель для создания образцов. Традиционные методы на основе пула, GAAL Сравнение с моделью в этой статье показано на рисунке 1. Рисунок 1:Сравнение активного обучения (на основе пула) Анализ алгоритмовВ отличие от GAAL, метод в этой статье сначала использует метод на основе пула (BALD) для выбора выборки с наибольшим объемом информации Конкретная формула: где a(x;M) — функция стратегии выборки, а энтропия Шеннона используется для характеристики предсказанного значения и распределения. После того, как образец x помечен как y, он поступает в библиотеку образцов для последующего обучения. Конкретная функция выборки использует метод отсева Монте-Карло (MC): f представляет сетевую функцию, выбранную из апостериорной оценки на t итерациях. В процессе создания генеративной модели для активного создания выборочных данных в этом документе GAN напрямую не применяется, как GAAL, но опирается на концепцию увеличения данных и принимает модель байесовского увеличения данных (BDA). Модель BDA состоит из генератора (для генерации новых обучающих выборок из скрытого пространства), дискриминатора (для различения реальных и поддельных выборок) и классификатора (для определения категорий выборок). Во-первых, учитывая скрытую переменную u и метку класса y, используйте функцию g для представления производящей функции, сопоставьте (u, y) с точкой x = g (u, y), а затем помеченные данные x представлены как (x, y) добавляется в обучающую выборку. Эта статья о BDA улучшен, чтобы не использовать скрытую переменную u и метку класса y на этапе генерации образца, а использовать образец x и метку класса y, то есть образец x напрямую вставляется в VAE: Процесс обучения VAE достигается за счет минимизации потерь при реконструкции. Кроме того, мы демонстрируем, что выборки, созданные из наиболее информативных выборок, также информативны. Основной вклад этой статьи заключается в том, что путем объединения BALD и BDA эффективно генерируются новые помеченные образцы, которые имеют значение для процесса обучения. Структура этой модели показана на рисунке 2. фигура 2:Сетевая архитектура модели, предложенной в данной статьеКак видно из рисунка 2, предложенная в данной статье модель состоит из четырех частей: классификатора, кодировщика, декодера/генератора и дискриминатора. Классификатор может использовать различные основные классификаторы глубоких сверточных нейронных сетей, что делает модель более гибкой и может эффективно использовать различные превосходные классификаторы. В генераторной части в этой статье используются ACGAN и VAE-GAN. Ошибка реконструкции ВАЭ вводится в функцию потерь ГАН для формирования функции потерь ВАЭ-АКГАН, которая реализует наказание за нереалистичный и модовый коллапс при обучении ГАН. Функция потерь VAE-ACGAN: где потеря VAE выражается как комбинация потери реконструкции Lrec и априорной регуляризации Lprior:
Функция потерь ACGAN:
Результаты экспериментовВ этой статье оценивается производительность байесовской генеративной модели активного глубокого обучения на основе производительности классификации, измеряемой точностью Top-1.
-
Методы экспериментального сравнения включают: байесовскую генеративную активную модель глубокого обучения (AL с VAEACGAN), модель активного обучения с использованием BDA (AL с ACGAN), BALD без обработки дополнения данных (AL без DA), без использования BDA (BDA) для активные методы обучения и методы случайной генерации выборок.
-
Экспериментальная база данных: МНИСТ, ЦИФАР-10, ЦИФАР-100, СВХН.
-
Классификаторы, использованные в экспериментах: ResNet18, ResNet18pa.
изображение 3:Тренировки и классификацияНа рис. 3 показаны экспериментальные результаты каждой модели при наборе количества итераций и выборки в процентах от начального обучающего набора. Каждая точка кривой на рисунке 3 представляет собой результат одной итерации сбора данных, где каждая новая точка представляет процентный рост обучающей выборки. Экспериментальные результаты BDA, смоделированные с использованием полного обучающего набора и 10-кратного увеличения данных в качестве верхней границы для всех других методов (BDA (полное обучение)). Модель, предложенная в этой статье (AL с VAEACGAN), превосходит модель активного обучения (AL с ACGAN) с использованием BDA. Это показывает, что, хотя AL w.ACGAN обучается с использованием информации об образцах, сгенерированные образцы могут быть неинформативными и, таким образом, являются недействительными образцами. Тем не менее, АЛ w. Производительность классификации образцов, созданная ACGAN, по-прежнему лучше, чем метод активного обучения без обработки дополнения данных (AL без DA). Кроме того, эксперименты на рис. 3 также показывают, что предложенная модель может обеспечить эффективность классификации, сравнимую с методами увеличения данных, которые полагаются на 10-кратный размер обучающей выборки, при этом полагаясь только на часть данных обучающей выборки. Это показывает, что модели в этой статье нужно потреблять меньше человеческих и вычислительных ресурсов только для маркировки набора данных и обучения модели. Кроме того, в этой статье завершаются три эксперимента с различными случайными инициализациями, а окончательные результаты классификации показаны в таблице 1. Данные в таблице 1 показывают, что модель, предложенная в этой статье, превосходит другие методы.
Таблица 1:Среднее стандартное отклонение точности классификации по MNIST, CIFAR-10 и CIFAR-100 после 3 прогонов и 150 итераций
На рис. 4 представлены изображения, сгенерированные с помощью предложенной модели в разных базах данных. Основная цель модели в данной работе — улучшить процесс обучения для получения лучших результатов классификации, однако, как видно из результатов на рисунке 4, сгенерированные данные модели имеют очень высокое качество изображения.Рисунок 4: Различные типы изображений, генерируемых методом AL w.VAE-ACGAN, предложенные в этой статье. Резюме и анализЭта статья представляет собой модель активного обучения класса синтеза запросов (сгенерированные образцы), вдохновленную (Zhu and Bento, 2017), и, поскольку в статье (Zhu and Bento, 2017) обсуждается только проблема бинарной классификации, эта статья не сравнивается с ней. . Метод, предложенный в этой статье, не зависит от модели, поэтому его можно комбинировать с несколькими методами активного обучения, предложенными до сих пор. Метод генерации образцов существующей модели заключается в создании образцов на основе образцов с высоким информационным содержанием, выбранных из немаркированного набора данных. Последующие исследования будут сосредоточены на том, как использовать сложные функции сбора данных для прямого создания образцов из немаркированного набора данных. необходимость этапа отбора образцов. Кроме того, вычислительная производительность модели нуждается в дальнейшем улучшении.
Об авторе: У Цзиин, доктор технических наук, окончил Пекинский университет Цзяотун, работал ассистентом-исследователем и научным сотрудником в Китайском университете Гонконга и Гонконгском университете науки и технологии соответственно, и в настоящее время занимается в исследовании новых технологий в области электронного правительства. Основное направление исследований — распознавание образов, компьютерное зрение, любовь к научным исследованиям, надежда на дальнейшее обучение и постоянный прогресс.
Книга Текст оригинальный для сердца машины,Для перепечатки, пожалуйста, свяжитесь с этим официальным аккаунтом для авторизации .✄------------------------------------------------Присоединяйтесь к сердцу машины (штатный репортер / Стажер): hr@jiqizhixin.com Чтобы внести свой вклад или получить покрытие: content @jiqizhixin.com рекламировать & Деловое сотрудничество: bd@jiqizhixin.com