[Бумажные заметки] Бумажные заметки серии Domain Adaptive Series

искусственный интеллект
[Бумажные заметки] Бумажные заметки серии Domain Adaptive Series

В этой статье основное внимание уделяется методам адаптации домена, основанным на состязательном обучении в задачах адаптации домена без учителя, и к конкретным документам относятся: DANN, ADDA, CDAN, TADA, GCAN, DAAN.

1. Базовые знания

  • О трансферном обучении

    Что касается трансферного обучения, я рекомендую всем прочитать этот обзор:

    • определение

      В статье «Обзор трансферного обучения» автор определяет трансферное обучение следующим образом: Учитывая исходный доменDSD_S and learning task TST_S, a target domain DTD_T and learning task TTT_T , transfer learning aims to help improve the learning of the target predictive function fT()f_T (·) in DTD_T using the knowledge in DSD_S and TST_S, where DSDTD_S \neq D_T , or TSTTT_S \neq T_T .

      Среди них Домен определяется какD={X,P(X)}D=\{\mathcal{X},P(X)\}, то есть пространство признаковX\mathcal{X}и маргинальные распределения вероятностейP(X)P(X)состав; Задача определяется какT={Y,P(YX)}T=\{\mathcal{Y},P(Y|X)\}, т.е. по пространству метокY\mathcal{Y}и условное распределение вероятностейP(YX)P(Y|X)сочинение.

      PS:С непрерывным углублением области трансферного обучения многие названия, использовавшиеся в прошлом, были исключены, или их направленность изменилась, или они стали подобластью трансферного обучения, например: обучение обучению, обучение на протяжении всей жизни, многозадачное обучение и т. д. .

      Источник изображения: Обзор трансферного обучения, 2009 г., Синно Цзялин Пан и Цян Ян.
    • Подполевое подразделение

      В статье «Обзор трансферного обучения» автор разделяет трансферное обучение: индуктивное трансферное обучение, трансдуктивное трансферное обучение, трансферное обучение без учителя. Среди них каждая категория определяется следующим образом:

      • Inductive Transfer Learning : Given a source domain DSD_S and a corresponding learning task TST_S, a target domain DTD_T and a corresponding learning task TTT_T , inductive transfer learning aims to help improve the learning of the target predictive function fT()f_T (·) in DTD_T using the knowledge in DSD_S and TST_S, where TSTTT_S \neq T_T .
      • Transductive Transfer Learning : Given a source domain DSD_S and a corresponding learning task TST_S, a target domain DTD_T and a corresponding learning task TTT_T , transductive transfer learning aims to improve the learning of the target predictive function fT()f_T (·) in DTD_T using the knowledge in DSD_S and TST_S, where DSDTD_S \neq D_T and TS=TTT_S = T_T . In addition, some unlabeled target domain data must be available at training time.
      • Unsupervised Transfer Learning : Given a source domain DSD_S with a learning task TST_S, a target domain DTD_T and a corresponding learning task TTT_T , unsupervised transfer learning aims to help improve the learning of the target predictive function fT()f_T (·) in DTD_T using the knowledge in DSD_S and TST_S, where TSTTT_S \neq T_T and YSY_S and YTY_T are not observable.
      Источник изображения: Обзор трансферного обучения, 2009 г., Синно Цзялин Пан и Цян Ян.
    • Классификация распространенных методов

      • Передача обучения на основе экземпляров: в соответствии с определенными правилами генерации весов вес выборочных данных исходного домена корректируется, чтобы их можно было повторно использовать в процессе обучения целевого домена, чтобы выполнить перенос обучения.
      • Передача обучения на основе функций: изучая «хорошее» представление функций (представление функций), разрыв между исходным доменом и распределением объектов целевого домена сужается, тем самым повышая производительность модели в целевом домене. Как определить, является ли выражение изученного признака «хорошим», является ядром этого типа метода.Обычно используемый метод заключается в использовании максимального среднего несоответствия (MMD) в качестве метрики для измерения разницы между распределением признаков исходного домена. и целевой домен.
      • Передача обучения на основе параметров: если предположить, что данные в исходном домене и целевом домене могут совместно использовать некоторые параметры модели, общие параметры модели находятся с помощью разработанного алгоритма для выполнения трансферного обучения. Сюда же относится и часто упоминаемая в обыденное время подстройка параметра (Fine-tune), этому экспериментальному обсуждению посвящена статья:«Насколько переносимы функции в глубоких нейронных сетях».
      • Трансферное обучение на основе отношений: если предположить, что отношения между данными исходной области аналогичны отношениям между данными целевой области, трансферное обучение выполняется путем изучения взаимосвязи между образцами в исходной области и целевом домене.
      Источник изображения: Обзор трансферного обучения, 2009 г., Синно Цзялин Пан и Цян Ян.
  • Об адаптации домена

    Что касается адаптации домена, я рекомендую всем прочитать этот обзор:

    • определение

      В статье «Обзор трансферного обучения» автор указал, что предметная адаптация относится к трансдуктивному трансферному обучению, а именноTS=TTT_S = T_T,DSDTD_S \neq D_T. В статье «Глубокая визуальная адаптация предметной области: обзор» автор делит адаптацию предметной области на адаптацию гомогенной предметной области и адаптацию гетерогенной предметной области.XS=XT\mathcal{X_S} = \mathcal{X_T},P(XS)P(XT)P(X_S) \neq P(X_T),последнийXSXT\mathcal{X_S} \neq \mathcal{X_T}.

      Источник изображения: Deep Visual Domain Adaptation: A Survey, 2018, Mei Wang and Weihong Deng.
    • Классификация распространенных методов

      В статье «Глубокая визуальная адаптация домена: обзор» автор делит методы адаптации домена на три категории следующим образом:

      • Адаптация домена на основе несоответствия: используйте данные исходного и целевого домена для тонкой настройки модели, чтобы уменьшить сдвиг домена (сдвиг домена) для адаптации домена.
      • Адаптация домена на основе состязательности: посредством противостояния с дискриминатором генератор выравнивает данные исходного домена и целевого домена в пространстве данных или пространстве признаков, чтобы изучить свойства, не зависящие от домена, чтобы выполнить самоадаптацию домена.
      • Адаптация домена на основе реконструкции: используйте реконструкцию данных в качестве вспомогательной задачи, чтобы убедиться, что изученные функции остаются неизменными для адаптации домена.
      Источник изображения: Deep Visual Domain Adaptation: A Survey, 2018, Mei Wang and Weihong Deng.

      Адаптацию домена на основе несоответствия можно разделить в соответствии с используемыми критериями (Criterion) следующим образом:

      • Критерий класса: используйте информацию на этикетке в качестве руководства по миграции. В контролируемом DA, помимо непосредственного использования меток, можно использовать программные метки и метрическое обучение; в полууправляемом DA и неконтролируемом DA можно использовать представление псевдометок и атрибутов.
      • Статистический критерий: выровняйте статистическое распределение исходного домена и целевого домена.Обычно используемой метрикой является MMD.
      • Критерий архитектуры: улучшите способность модели передавать функции, изменив структуру/параметры модели.
      • Геометрический критерий: адаптация домена с использованием геометрических свойств исходного и целевого доменов. Этот критерий предполагает, что геометрическое соотношение исходного и целевого доменов может уменьшить сдвиг домена.

      Адаптацию домена на основе состязательности можно разделить в зависимости от того, используется ли генеративная модель или нет, следующим образом:

      • Генеративная модель: Используйте генеративные модели.
      • Негенеративная модель: не использует генеративную модель.

      Адаптацию домена на основе реконструкции можно разделить в зависимости от способа реконструкции данных следующим образом:

      • Реконструкция кодировщика-декодера: реконструкция данных с использованием автокодировщиков.
      • Состязательная реконструкция: реконструкция данных с использованием генеративно-состязательных сетей.

2. Unsupervised Domain Adaptation by Backpropagation

Ссылка на бумагу:Unsupervised Domain Adaptation by Backpropagation, Опубликовано: ICML 2015

В этом документе состязательное обучение сочетается с адаптацией предметной области и предлагается уровень обратного градиента, поэтому обучение модели не должно быть таким сложным, как процесс обучения GAN. (Эта статья должна быть одним из источников разработки Adversarial Domain Adaptation in Unsupervised Domain Adaptation, и структура текущих общих методов в основном такая же)

Среди них слой инверсии градиента очень легко реализовать, например: используя механизм Hook PyTorch или определяя Backward of Module.

PS :После того, как автор отредактировал и систематизировал статью, он опубликовал журнальную версию статьи:Domain-Adversarial Training of Neural Networks, опубликованный в JMLR. В этом выпуске авторы называют предлагаемую структуру нейронными сетями состязательности домена (DANN).

3. Adversarial Discriminative Domain Adaptation

Ссылка на бумагу:Adversarial Discriminative Domain Adaptation, Опубликовано: ЦВПР 2017

Автор предлагает унифицированную структуру для адаптации состязательного домена и считает, что общие методы адаптации состязательного домена получаются путем изменения различных переменных в структуре, таких как: использование генеративных моделей или дискриминационных моделей, экстракторов исходных доменов и целей. экстрактор признаков домена остается согласованным и т. д. Конкретные детали структуры показаны на следующем рисунке.

Кроме того, на основе этой единой структуры автор предлагает новый метод состязательной дискриминационной адаптации домена (ADDA) для решения проблемы неконтролируемой адаптации домена. По сравнению с унифицированной структурой, предложенной автором, ключевыми моментами этого метода являются: использование дискриминационной модели, неограниченное совместное использование параметров между экстрактором признаков исходного домена и экстрактором признаков целевого домена, а также использование потери GAN.

Процесс обучения ADDA делится на два этапа:

  • Исходный CNN и классификатор обучаются с использованием данных изображения и данных метки исходного домена.
  • Инициализируйте Целевой CNN с параметрами обученного Исходного CNN. Затем параметры Исходной CNN фиксируются, а Целевая CNN и Дискриминатор обучаются в состязательном режиме с использованием данных изображения и данных метки домена исходного/целевого домена.

Среди них автор объяснил детали конструкции каркаса:

  • Почему бы просто не сделать Source CNN и Target CNN равными?

Авторы утверждают, что принуждение модели к обучению симметричным преобразованиям делает оптимизацию менее оптимальной, поскольку одна и та же сеть должна обрабатывать изображения из двух разных доменов.

  • Почему бы не заказать напрямую, как DANNLadvM=LadvD\mathcal{L}_{adv_M}=-\mathcal{L}_{adv_D}?

Автор считает, что такая настройка вызовет проблемы при оптимизации модели, тем более, что дискриминатор на ранней стадии обучения чрезвычайно легко сходится, что приводит к исчезновению градиента.

Целевая функция ADDA показана на следующем рисунке:

PS: Официальный адрес проекта с открытым исходным кодомerictzeng/adda, поддержка Tensorflow; адрес стороннего проекта с открытым исходным кодомcorenel/pytorch-adda, который поддерживает PyTorch.

4. Conditional Adversarial Domain Adaptation

Ссылка на бумагу:Conditional Adversarial Domain Adaptation, опубликовано в: NIPS 2018

Автор считает, что большинство существующих методов не могут эффективно согласовывать мультимодальное распределение разных доменов (Multimodel Distribution), поэтому автор страдает отConditional Generative Adversarial NetworksВдохновленный , предложил структуру условно-состязательной адаптации домена (CDAN) для решения проблемы адаптации неконтролируемого домена.

Среди них структура в основном имеет две новые стратегии корректировки (стратегия кондиционирования): многолинейное обусловливание с использованием выражения признака, извлеченного моделью, и прогнозируемого вектора вероятности результата для извлечения кросс-ковариации (кросс-ковариации), чтобы Отрегулируйте модель; Entropy Conditioning, отрегулируйте неопределенность прогнозируемых результатов модели, чтобы обеспечить ее миграционную способность.

PS: Первый автор этой статьи — доцент Лун Миншэн из Университета Цинхуа.Направление его исследований — трансферное обучение.Если вам интересно, вы можете ознакомиться с ним.Домашняя страница.

  • Multi-linear Conditioning

Математическое выражение целевой функции CDAN выглядит следующим образом:

в,hhВыражается особенностями моделиffи вектор вероятности прогнозов моделиggСопоставлено.

В статье автор вводит два метода отображения: Мультилинейное отображение\bigotimesи случайная многолинейная карта\bigodot. Среди них многолинейная карта с умножением матриц.ffиggнанести на карту (при условииffразмерbatch*1*Fbatch * 1 * FиggРазмерbatch*G*1batch * G * 1, размер конечного результата отображенияbatch*G*Fbatch * G * F); Случайная многолинейная карта путем построения случайных пар слоевffиggДелайте случайное отображение.

Как показано на рисунке ниже, автор дает рекомендации о том, как определить, какой метод картирования использовать:

  • Entropy Conditioning

Автор вычисляет значение энтропии вектора вероятности результата предсказания модели и использует его в качестве значения веса функции потерь дискриминатора домена. Автор называет CDAN с помощью Entropy Conditioning CDAN+E, а математическое выражение его целевой функции выглядит следующим образом:

PS :Официальный адрес проекта с открытым исходным кодом этой статьи:thuml/CDAN, поддерживает три платформы глубокого обучения PyTorch/Tensorflow/Caffe.

5. Transferable Attention for Domain Adaptation

Ссылка на бумагу:Transferable Attention for Domain Adaptation, Опубликовано: АААИ 2019

Автор считает, что существующий метод Adversarial Domain Adaptation имеет два недостатка: он напрямую использует глобальные признаки для выравнивания и не учитывает ситуацию, что «переносимость признаков в разных локальных регионах различна»; по умолчанию используются все изображения для transfer, не учитывает ситуацию, что «не все образы подходят для переноса».

Поэтому автор вводит механизм внимания, основанный на существующем методе адаптации состязательного домена, и предлагает новую структуру: переносимое внимание для адаптации домена (TADA), которая используется для решения проблемы адаптации домена без присмотра. В этой структуре авторы используют механизм внимания для выбора локальных областей, которые больше подходят для передачи, и изображений, которые больше подходят для передачи:Transferable Local AttentionиTransferable Global Attention.

PS: Ответственным автором этой статьи является доцент Лун Миншэн из Университета Цинхуа.

  • Transferable Local Attention

Автор использует вывод Feature Map последнего сверточного слоя ResNet-50 (его размер7×7×20487 \times 7 \times 2048) в качестве локального признака, соответственно введите признаки соответствующих регионов в соответствующие дискриминаторы локального домена.Gdk(iе[1,K], в этой статьеK=49)G_d^k (i \in [1, K], K = 49 в этой статье), получается вероятность того, что каждый регион принадлежит исходному доменуd^ik=Gdk(fik)\hat{d}_i^k=G_d^k(f_i^k). Следовательно, функция потерь Local Transfer Loss дискриминатора локального домена имеет вид:

Затем автор вычисляет соответствующее значение энтропии по значению вероятности локальной области, а затем вычисляет коэффициент внимания соответствующей локальной области:

PS: Лично я считаю, что отрицательный знак в этой формуле должен быть положительным. По задумке автора, внимание той локальной области, которую легче мигрировать, должно улучшаться, а производительность той локальной области, которую легче мигрировать, заключается в том, что ее значение энтропии велико (т. велика), поэтому это должна быть область с большим значением энтропии. , ее коэффициент внимания должен быть больше. Другим доказательством является то, что формула (6) в статье (описывающая коэффициент внимания глобального изображения) противоречит этой формуле.

Кроме того, чтобы избежать негативного влияния неправильного механизма локального внимания на передачу, автор также добавил остаточный механизм для получения конечных локальных признаков:

  • Transferable Global Attention

Подобно другим методам, функция потерь Global Transfer Loss глобального дискриминатора домена имеет вид:

PS: Лично думаю, что формула вGd(Gb(Hi),di)G_d(G_b(H_i),d_i)должно бытьGd(Gb(Hi)),diG_d(G_b(H_i)),d_i.

Подобно механизму внимания локальной области, коэффициент внимания глобального изображения также рассчитывается из значения энтропии его значения вероятности:

Таким образом, функция потерь механизма внимания Attentison Entropy Loss имеет вид:

в,pi,jp_{i,j}для образцаxix_iПрогнозируемый класс меток дляjjВероятность.

PS :Автор обещает в статье, что онTHUML: Machine Learning Groupс открытым исходным кодом, но я не видел соответствующего проекта с открытым исходным кодом. Меня интересуют детали реализации модели, описанной в статье, например: супервизор локального домена, использованный в статьеGdi(iе[1,K])G_d^i (i \in [1, K])Занятые ресурсы, использовать ли GRL (Gradient Reversal Layer, градиентный реверсивный слой), например DANN и т. д.

6. GCAN: Graph Convolutional Adversarial Network for Unsupervised Domain Adaptation

Ссылка на бумагу:GCAN: Graph Convolutional Adversarial Network for Unsupervised Domain Adaptation, Опубликовано: ЦВПР 2019

Автор считает, что в обычных методах адаптации домена часто используются три вида важной информации: структура данных (информация о структуре данных), метка домена (информация о метке домена) и метка класса (информация о метке категории).

  • Структура данных: включая предельное распределение вероятностей, условное распределение вероятностей, статистическое распределение данных, геометрию данных.
  • Метка домена: назначьте метки исходного/целевого домена образцам, которые обычно используются в методах адаптации состязательного домена.
  • Метка класса: в дополнение к информации о метке исходного домена она также включает информацию о псевдометке целевого домена.

Однако большинство методов используют только один или два из них, и для авторов естественно думать о том, как использовать все три для переноса одновременно. Поэтому автор предложил структуру Graph Convolutional Adversarial Network (GCAN) для решения проблемы адаптации неконтролируемого домена.

В соответствии с типом используемой информации инфраструктуру можно разделить на три части: выравнивание с учетом структуры, выравнивание домена, выравнивание центра тяжести класса. Используемая функция общих потерь выглядит следующим образом:

  • Domain Alignment

Подобно другим методам состязательной адаптации домена, потеря выравнивания домена:

  • Structure-aware Alignment

Автор использует CNN для извлечения функции CNN из изображения и использует анализатор структуры данных (DSA) для извлечения оценки структуры. Функция CNN используется в качестве входных данных GCN, а оценка структуры используется в качестве матрицы смежности. GCN, чтобы получить функцию GCN, которая используется в качестве конечной функции изображения.

PS: прочитайте экспериментальную часть статьи, автор реализует DSA с помощью AlexNet (изменив размерность его окончательного вывода на 1000), так же, как и используемую им CNN. Нет подробного объяснения того, что такое DSA, чем он отличается от используемой им CNN и почему его выходные данные называются оценкой структуры.

Подобно потере триплетов, потеря выравнивания домена, используемая автором, составляет:

  • Class Centroid Alignment

Авторы отмечают, что тот факт, что признак обладает доменной инвариантностью и структурной согласованностью, не означает, что он обладает различимостью. Поэтому автор использует центры кластеризации признаков исходной/целевой области, чтобы обеспечить различительную способность изученных признаков.

Поскольку целевой домен не имеет информации о метке, автор использует результат предсказания классификатора в качестве псевдометки (псевдометки) целевого домена. Следовательно, потеря выравнивания класса:

Автор указывает, что идея улучшения различительной способности изученных признаков (или обогащения семантической информации, содержащейся в изученных признаках) путем построения кластерных центров признаков исходной/целевой области исходит из:Learning Semantic Representations for Unsupervised Domain Adaptation(Эта статья была опубликована в ICML 2018, автором-корреспондентом является профессор Чжэн Цзыбинь из Университета Сунь Ятсена, а официальный адрес проекта с открытым исходным кодом:Mid-Push/Moving-Semantic-Transfer-Network). (Личное ощущение и CVPR 2018Unsupervised Domain Adaptation with Similarity LearningИдеи похожи, все они заключаются в улучшении различительной способности модели путем построения центра кластеризации признака, но форма немного отличается)

Что касается гиперпараметров, используемых в статье, авторы отмечают:αT\alpha_T=1,η\eta=0,001,θ\theta=0,7,λ=γ=21+exp(kp)\lambda=\gamma=\frac{2}{1+exp(-k \cdot p)}(в,kkравно 10,ppот 0 до 1).

PS :Соответствующий открытый исходный код не найден.

7. Transfer Learning with Dynamic Adversarial Adaptation Network

Ссылка на бумагу:Transfer Learning with Dynamic Adversarial Adaptation Network, опубликовано на: ICDM 2020

В адаптации домена все методы направлены на согласование предельных или условных вероятностных распределений исходного и целевого доменов или обоих. Однако лишь немногие методы динамически и количественно анализируют относительную важность этих двух факторов для миграции. Поэтому автор исходит из этой идеи и предлагает структуру Dynamic Adversarial Adaptation Network (DAAN) для решения проблемы адаптации неконтролируемого домена.

  • Global Domain Discriminator

Функция потерь глобального дискриминатора доменов выглядит следующим образом:

  • Local Subdomain Discriminator

Функция потерь Local Subdomain Discriminator выглядит следующим образом:

  • Dynamic Adversarial Factor w\mathcal{w}

Автор определяет его расстояние через функцию потерь глобального дискриминатора домена и локального дискриминатора поддомена:

PS: По поводу коэффициента 2 в формуле, я еще не понял его смысла, чувствую1Lg1-L_gи1Llc1-L_l^cВот и все.

И рассчитывается по расстоянию между глобальным дискриминатором домена и локальным дискриминатором поддомена.w\mathcal{w}:

Согласно последующему объяснению,w\mathcal{w}чтобыLlL_lВес:

другими словами,w\mathcal{w}Чем больше значение, тем важнее условное распределение вероятностей, и наоборот, тем важнее маргинальное распределение вероятностей.

Кроме того, отмечается, что расчет функции потерь модели для образцов в целевой области требует использования информации о псевдометках.

PS :Соответствующий открытый исходный код не найден.

8. Рекомендуемые материалы для начала работы

Использованная литература: