[Адаптация домена глубины] 1. Подробное объяснение DANN и слоя обратного градиента (GRL)

Исходная ссылка блога CSDN:blog.CSDN.net/QQ_30091945…

Знайте исходную ссылку столбца:zhuanlan.zhihu.com/p/109051269

предисловие

В настоящее время искусственный интеллект находится в самом разгаре и широко используется во всех сферах жизни.В частности, искусственный интеллект также повлиял на повседневную жизнь людей, такую как одежда, еда, жилье и транспорт с различных аспектов. Причина этого заключается в высокой производительности различных глубоких нейронных сетей, таких как CNN, RNN, LSTM и GAN, которые решают различные сложные проблемы в различных сценариях приложений. \

В различных областях, особенно на рынке C-end, глубокие нейронные сети могут быстро расцвести и принести плоды в последние годы благодаря массивным данным и ярлыкам, которые принесла нынешняя эра больших данных. Другими словами, текущие алгоритмы глубокого обучения управляются наборами данных и соответствующими им метками, а количество и качество наборов данных и их меток определяют производительность алгоритмов глубокого обучения.

Большое количество общедоступных наборов данных для академических исследований, таких как IamgeNet, VOC, COCO и CelebA, поддержали быстрое внедрение алгоритмов глубокого обучения в основные сценарии приложений на рынке C-end, значительно повысив эффективность производства предприятий. . Однако из-за конфиденциальности данных у большого количества наборов данных отсутствуют соответствующие метки, что также делает многие алгоритмы глубокого обучения с хорошей производительностью на стороне C неспособными быстро мигрировать на сценарии B-стороны. Затем, чтобы обеспечить успешное завершение проекта на стороне B, предприятию сначала необходимо выполнить аннотацию большого объема данных в соответствии с исходным набором данных проекта в сочетании с требованиями проекта. В то же время, большая часть работы по маркировке наборов данных в отрасли выполняется посредством аутсорсинга сторонними аутсорсинговыми компаниями.Для наборов данных, требующих сильного профессионального и делового опыта, невозможно полностью гарантировать качество маркировки.Даже если качество обычных наборов данных гарантировано, это будет стоить больших денег, требуется много рабочей силы, материальных ресурсов и временных затрат, а также много коммуникаций, координации и контроля. После этого компания проводит соответствующее обучение миграции на общедоступном алгоритме глубокого обучения на основе помеченных вручную меток и их данных для удовлетворения потребностей проекта B-side.

Адаптация предметной области — это своего рода трансферное обучение, а также основная идея решения переноса модели между различными наборами данных, когда метки серьезно отсутствуют.

1. Понятия, связанные с адаптацией предметной области

Для удобства следующего описания необходимо объяснить связанные концепции адаптации предметной области и трансфертного обучения.

С точки зрения непрофессионала, трансферное обучение заключается в использовании существующих предварительных знаний, чтобы позволить алгоритму изучить новые знания, то есть найти сходство между предшествующими знаниями и новыми знаниями. Адаптация предметной области является основной идеей решения проблем в текущей области трансфертного обучения. В трансферном обучении и адаптации предметной области набор данных существующих предшествующих знаний называется исходной областью, а набор данных новых знаний, которые необходимо изучить алгоритму, называется целевой областью. Обычно существует большая разница между исходным доменом и целевым доменом, то есть распределение данных не совсем одинаково, но определенно связано.

Затем трансферное обучение при различном распределении данных целевого домена и исходного домена, но одной и той же задачей является адаптация домена (адаптация домена, адаптация домена, адаптация домена). Другими словами, основная задача адаптации домена состоит в том, чтобы уменьшить разницу в распределении данных между исходным доменом и целевым доменом, чтобы реализовать передачу знаний.

2. DANN и слой обратного градиента (GRL)

Адаптация домена является первым прорывом в задаче классификации изображений.Он в основном использует комбинацию CNN и стратегии адаптации домена для формирования DANN для реализации задачи классификации изображений исходного домена и целевого домена, который также устанавливает слой обращения градиента ( GRL) важную роль в адаптации домена. Адрес загрузки бумаги DANN:АР Вест V.org/ABS/1409.74…

В этой статье в основном предлагается сеть DANN, а схема сетевой архитектуры сети показана на следующем рисунке. На рисунке ниже зеленая часть представляет сеть извлечения признаков, синяя часть — сеть классификации изображений, а красная часть — сеть классификации доменов. \

Во входных данных изображения DANN , где представляет пространство ввода изображения, метка классификации изображения, гдепредставляет собой пространство меток классификации изображений. В DANN предполагается два распределения данных: распределение данных исходного домена.и распределение данных целевого домена. ТакЦель DANN — точно предсказать классификационную метку входного изображения в целевом домене..

Предположим, что обучающие выборкиПредельные распределения и из исходного и целевого доменов соответственно. При этом определим как доменную метку первой обучающей выборки, где. если тогда, и наоборот.

При обучении DANN входом сети является набор данных исходной области с метками классификации изображений и набор данных целевой области без меток классификации изображений, а также метки классификации области исходного и целевого наборов данных области. То есть мы знаем метки классификации изображений набора данных исходного домена без меток классификации изображений набора данных целевого домена.

Входное изображение DANN сначала пройдет через сеть извлечения признаков на этапе обучения.Отображение преобразуется в одномерный вектор признаков, т.е. Затем DANN будет разделен на две ветви, а именно на сеть прогнозирования классификации изображений.и сеть классификации доменов. Вектор признаков, соответствующий входным данным исходного домена, будет проходить черезОтображение соответствующих результатов предсказания метки классификации изображений. В то же время векторы признаков входных данных исходного домена и входных данных целевого домена будут проходить черезПолучите результат классификации домена для каждого входа.

Хотя в процессе классификации изображений DANN может выполнять классификацию изображений только для данных набора данных исходного домена, для выполнения задачи классификации набора данных целевого домена DANN должен рассматривать данные целевого домена как данные исходного домена.Затем на этапе обучения нам необходимо выполнить следующие две задачи: во-первых, добиться точной классификации набора данных исходной области и минимизировать ошибку классификации текущего изображения; Вторая задача состоит в том, чтобы перепутать набор данных исходного домена и набор данных целевого домена, максимизировать ошибку классификации домена и перепутать набор данных целевого домена и набор данных исходного домена.. Тогда функцию потерь DANN можно определить по следующей формуле (1):

(1)

Тогда оптимальное значение соответствующих параметров DANN можно выразить следующей формулой (2):
(2)

Из приведенной выше формулы мы также видим, что процесс решения параметров DANN аналогичен процессу GAN. Роль классификатора домена в DANN Роль дискриминатора в GAN очень похожа. Также можно сказать, что идея дизайна DANN принимает идею состязательного обучения, Классификатор изображений и классификатор домена противостоят друг другу в процессе обучения, чтобы достичь баланса между потерей классификации изображений и потерей классификации домена. .

Затем, если алгоритм SGD используется для оптимизации параметров модели DANN, формула обновления градиента параметров модели DANN отображается в следующей формуле (3):
(3)

Из уравнений (2) и (3) видно, что входные данные классификатора домена и классификатора изображений поступают от экстрактора признаков, но цель классификатора домена состоит в том, чтобы максимизировать потери классификации домена и запутать целевой домен. data и исходный домен data, но целью классификатора изображений является минимизация потерь при классификации изображений и достижение точной классификации изображений. Затем это приводит к тому, что градиент потери классификации домена становится противоположным градиенту потери классификации изображения, когда экстрактор признаков обновляет параметры.

Чтобы избежать поэтапного обучения, зафиксировав параметры генератора и дискриминатора отдельно, как GAN, что также усложняет написание кода, чтобы облегчить программирование и добиться сквозного обучения в истинном смысле, структура DANN предлагает совершенно новыеСлой обращения градиента (GRL), так что направление градиента автоматически меняется на обратное в процессе обратного распространения, а тождественное преобразование реализуется в процессе прямого распространения.Соответствующее математическое выражение показано в следующей формуле (4):
(4)

Слой инверсии градиента находится в основном между экстрактором признаков и классификатором предметной области, затем в процессе обратного распространения градиент потери классификации предметной области классификатора предметной области будет автоматически реверсирован, прежде чем он будет распространен обратно на параметры экстрактора признаков, и тогда достигается состязательный проигрыш, аналогичный GAN. Тогда функция потерь, представленная уравнением (1), также может быть записана в виде следующего уравнения (5):
(5)

Конечно, в слое обращения градиента (GRL) параметры не являются фиксированными значениями, а динамически изменяются. Выражение его изменения показано в формуле (6):
(6)

В уравнении (6) он представляет собой относительное значение процесса итерации, то есть отношение текущего количества итераций к общему количеству итераций, которое равно 10. В то же время в архитектуре DANN скорость обучения также изменяется при итеративном процессе, и формула преобразования представлена в формуле (7):
(7)

где начальная скорость обучения, значение которой равно 0,01, что представляет собой относительное значение процесса итерации, то есть отношение текущего количества итераций к общему количеству итераций, и является гиперпараметром,.

3. Экспериментальный вывод

В статье автор провел связанные эксперименты с десятичными наборами и большими наборами данных. В небольшом наборе данных в основном используются наборы данных MNIST, MNIST-M, SYN NUMBERS, SVHN, SYN SIGNS и GTSRB.Один набор данных используется в качестве исходного домена, а другой — в качестве целевого домена для обучения DANN с различными архитектурами CNN. результаты следующие: \

Результаты обучающих экспериментов по адаптации предметной области на больших наборах данных следующие:

В приведенных выше экспериментах архитектуры сети DANN, соответствующие разным наборам данных, следующие:

Суммировать

в заключении:

В документе «Неконтролируемая адаптация домена с помощью обратного распространения» в основном предлагается архитектура DANN (глубокая сеть адаптации домена), которая в основном состоит из сети извлечения признаков, сети классификации изображений и сети классификации доменов. network совместно используют параметры сети извлечения признаков.****
Цели DANN делятся на две: Минимизация потерь при классификации изображений используется для точной классификации изображений; максимизация потерь при классификации доменов используется для того, чтобы спутать данные целевого домена с данными исходного домена.
Предлагается слой обращения градиента (GRL), который используется между сетью извлечения признаков и сетью классификации доменов.Градиент инвертируется в процессе обратного распространения, а затем строится состязательная потеря, подобная GAN, которой этот слой избегает. , Двухэтапный процесс обучения ГАН.****
Эксперименты в статье доказывают, что DANN и GRL достигают высокой точности классификации в задачах классификации изображений, будь то небольшой набор данных или большой набор данных, и успешно решают проблему отсутствия меток в наборе данных, то есть достигают неконтролируемой классификации изображений. .****
GAN можно рассматривать как своего рода адаптацию предметной области.GAN реализует адаптацию на уровне пикселей между доменами в некотором смысле, в то время как GRL реализует адаптацию на уровне функций между доменами.****

В следующем блоге: [Глубокая адаптация предметной области] 2. Использование DANN для реализации обучения переносу наборов данных MNIST и MNIST-M. В обучении мы в основном сосредоточимся на реализации DANN и GRL с помощью тензорного потока и используем DANN для реализации MNiST и MNIST. Наборы данных -M. Обучение адаптации предметной области.

Публичный аккаунт недавно рекомендовал прочитать:\

GAN существует уже 6 лет! Пришло время для инсульта!

Обзор руководства для начинающих | Слишком много моделей GAN, не знаете, какую выбрать?\

Были загружены сотни документов GAN! С недавним обзором генеративно-состязательных сетей!\

Немного преувеличено, немного искажено! Взгляните на то, как эти GAN преувеличивают и карикатурно изображают лица!\

В небе дождь, а у меня его нет! Как насчет GAN для удаления дождя?\

Исправьте свое лицо! Сможет ли ГАН сделать так, чтобы убийце профиля и свинке Пеппе действительно негде было спрятаться?\

Угасание! ГАН прогнозировать?\

Надежные данные — это сложно! Как насчет SSL (полуконтролируемое обучение) в сочетании с GAN?\

Руошуй три тысячи, только бери свою отметку! Как насчет AL (активного обучения) в сочетании с GAN?\

Обнаружение аномалий, как работает GAN?

Виртуальная переодевание! Взгляните на то, что делают эти последние газеты!\

Миграция макияжа лица! Краткий обзор нескольких статей с использованием GAN

[1] Как насчет генерации GAN на медицинских изображениях?

01-Краткий принцип формулы GAN - Маленькие сокровища в железной броне

GAN&CV группа обмена , будь вы новичок или большой парень, сердечно приглашаем вас присоединиться!\

Обсуждайте и общайтесь вместе! Нажмите и удерживайте заметку [Присоединиться к группе], чтобы присоединиться:

Чтобы больше поделиться, нажмите и удерживайте, чтобы подписаться на эту официальную учетную запись: