«Сердце машины» выпущено с разрешения Жуйцзя Сюй, Цзылян Чен, Ванмэн Цзо, Цзюньцзе Янь, Лян Линь.
Исследователи из Университета Сунь Ятсена, Харбинского технологического института и SenseTime совместно предложили фреймворк для глубокого обучения под названием «Cocktail Network» (DCTN), который обобщает существующий процесс адаптации домена из одного источника до более реалистичного и общего назначения. -исходная сцена адаптации домена. DCTN вдохновлен правилом объединения исходных кодов Y. Mansou [1] в 2009 году. В частности, DCTN изучает выражения признаков, не зависящие от домена, с помощью многоканального состязательного механизма и взаимодействует с соответствующими исходными классификаторами для совместной идентификации образцов целевого домена в соответствии с оценкой состязательного сходства как веса ассоциативного закона распределения с несколькими источниками, и использует высокую достоверность. Псевдоаннотированные образцы высокой степени повторно адаптируются к выражению признака, чтобы обеспечить более высокую эффективность различения. В ходе эксперимента DCTN добилась значительного повышения производительности Office31, Image-CLEF и недавно предложенного оценочного набора данных Digit-five на основе одновременной миграции четырех источников данных. Этот документ был принят конференцией CVPR 2018.
1. Введение
В связи с непрерывным генерированием крупномасштабных данных и сложностью полагаться на людей для маркировки информации методы переноса адаптации предметной области постепенно стали очень важной темой исследований в области машинного обучения. Обучение адаптации домена направлено на адаптацию распределения признаков между данными в разных доменах, повышение производительности классификаторов после миграции между разными доменами и решение проблемы, связанной с отсутствием аннотированной информации в данных целевого домена. Адаптивное к предметной области трансферное обучение также является ключевым техническим средством в отрасли с высокими требованиями к приложениям в вертикальных областях, таких как распознавание лиц, автономное вождение и медицинская визуализация. Например, в области автономного вождения, как минимизировать отклонение домена между виртуальной средой и реальной средой, другими городами и текущим городом? Другой пример в области медицинской визуализации: как всесторонне использовать медицинскую визуализацию из нескольких источников для постановки комплексного диагноза? Это сценарии, в которых обучение передаче предметной области имеет большой потенциал применения.
Стоит отметить, что источники данных, которые мы собираем в своей жизни, часто поступают из разных каналов. Источники данных, полученные из разных каналов, имеют отклонения от данных в целевой области, а также между этими источниками данных. Более широко рассматриваемый случай заключается в том, что категории среди нескольких источников данных также различны, что создает новые проблемы для обучения с переносом из нескольких источников (разница между адаптацией домена с одним источником и адаптацией домена с несколькими источниками отличается от разницы см. Рисунок 1). Однако, несмотря на то, что глубокое трансферное обучение достигло определенного прогресса в исследованиях проблем адаптации в одной области, то, как использовать глубокие сети для решения проблем адаптации в нескольких областях, все еще находится на почти пустой стадии.
2. Теоретическая движущая сила коктейлей
Исследования по трансферному обучению из нескольких источников данных восходят к теоретическим работам Дж. Блитцера [1] и Ю. Мансура [2]. Среди них [1] предложил первую верхнюю границу обучения для обучения с передачей из нескольких источников, которая заложила основу для разработки будущих моделей адаптивного обучения с несколькими источниками; [2] предложил, чтобы распределение целевого домена для передачи состояло из смеси нескольких исходных доменных дистрибутивов. На основе этой настройки они предложили правило объединения исходных дистрибутивов. Интуитивно они считают, что для обучения из разных исходных доменов должны быть свои собственные классификаторы, а не использовать один классификатор для унификации всех результатов классификации исходного и целевого доменов. В то же время между разными исходными доменами и целевым доменом есть сходство, поэтому исходный домен, более похожий на целевой домен, его классификатор должен классифицировать данные целевого домена, и результат должен быть более достоверным. В соответствии с двумя вышеуказанными пунктами результат классификации целевого домена должен быть взвешен по результатам классификации нескольких исходных доменов, и каждый вес исходной классификации должен отражать сходство между соответствующим исходным доменом и целевым доменом.
3. Глубокая сеть CockTail
Чтобы удовлетворить ассоциативность распределения с несколькими источниками, мы предлагаем Deep CockTail Network (DCTN). В конкретном потоке данных на рисунке 2 мы используем общую сеть объектов для моделирования всех исходных и целевых доменов, а затем используем метод многоканальной состязательной адаптации домена (на основе расширения в рамках одноканальной состязательной адаптации домена), Общая сеть функций для адаптации состязательного домена соответствует генератору в генеративно-состязательном обучении (GAN), и каждый исходный домен связан с целевым доменом для инвариантных функций домена состязательного обучения. В то же время каждый исходный домен также проводит контролируемое обучение отдельно и обучает несколько классификаторов softmax на основе разных категорий источников. Обратите внимание, что, основываясь на моделировании состязательного обучения, мы можем получить несколько дискриминаторов, которые противостоят целевому домену, соответственно, при получении общей функциональной сети. Для данных в целевом домене эти дискриминаторы могут дать оценку недоумения для каждого исходного домена, чтобы измерить сходство между исходным доменом и целевым доменом. Поэтому для каждого данных из целевого домена мы сначала приводим его множественные результаты классификации с использованием классификаторов softmax по разным источникам. Затем, основываясь на каждой категории, мы находим вероятности классификации softmax для всех исходных доменов, содержащих эту категорию, а затем, на основе оценок путаницы этих исходных и целевых доменов, берем средневзвешенное значение вероятностей классификации, чтобы получить оценку для каждой категории. Короче говоря, чем ближе исходный домен к целевому домену, тем выше степень путаницы, а это означает, что результат классификации более достоверен и, следовательно, имеет более высокий взвешенный вес. Следует отметить, что мы не работаем напрямую со всеми классификаторами softmax, а выполняем средневзвешенную обработку для каждой категории. Это связано с тем, что, согласно нашему предположению, категории каждого источника не обязательно являются общими, и поэтому результаты softmax нельзя просто добавить. Конечно, наш метод также применим к случаю, когда все источники имеют общие классы, поэтому наша формула эквивалентна прямому взвешенному суммированию результатов классификации softmax.
Принимая во внимание различия между распределениями данных в разных исходных доменах, образцы из некоторых исходных доменов имеют более высокую положительную производительность передачи для улучшения производительности классификации целевого домена, в то время как характеристики адаптации выборочного домена некоторых исходных доменов слабы или даже обеспечивают относительную производительность. Негативные последствия миграции. С этой целью мы разработали следующую стратегию градиентной транспортной сети на основе сложных выборок между доменами.Подробности см. в алгоритме на рисунке 3.
На основе многосторонней состязательной адаптации домена мы также предлагаем механизм повторной адаптации классификации. Мы идентифицируем изображения целевого домена на основе классификаторов и показателей сходства со стороны противника для каждого исходного домена и выбираем высоконадежные псевдомаркированные образцы целевого домена для точной настройки экстрактора признаков и классификатора с несколькими источниками. Таким образом, два обучения адаптации предметной области поочередно повторяются до тех пор, пока модель не сойдется. Для обучения всей DCTN можно обратиться к блок-схеме алгоритма на рисунке 4.
4. Эксперимент
В документе проводятся эксперименты с базовыми наборами данных адаптации предметной области, такими как Office-31 и ImageCLEF. Среди них набор данных Office-31 поступает из трех визуальных областей: Amazon (изображения электронной коммерции), веб-камеры (изображения, сделанные веб-камерами) и DSLR (изображения, сделанные камерами DSLR), и содержит в общей сложности 4652 изображения и 31 категорию. этикетки. В документе в качестве критериев оценки используется лучшая модель с одним источником и модель слияния нескольких источников, и она полностью сравнивается с популярными алгоритмами, такими как DAN и RevGrad.
В дополнение к обычной настройке адаптации домена мы также проводим экспериментальные исследования, включающие классовую предвзятость. По-прежнему взяв в качестве примера набор данных Office-31, пусть два исходных домена содержат первые две трети и последние две трети меток категорий соответственно, а затем выполните процесс адаптации домена с несколькими источниками, чтобы предсказать категорию изображения целевой домен.
Наконец, мы строим стандартную задачу переносного обучения с несколькими источниками «четыре к одному» «Цифра-пять» и одновременно приводим результаты двух задач адаптации предметной области с несколькими источниками в соответствии с этим стандартом трансферного обучения с несколькими источниками. Мы видим, что DCTN значительно лучше, чем текущие основные алгоритмы обучения с глубоким переносом.
Документ: Сеть Deep Cocktail: неконтролируемая адаптация домена с несколькими источниками со сдвигом категории
Ссылка на проект:Woohoo. Water Elemental-Train.net/deep-cock Он…
[1] Блитцер Дж., Краммер К., Кулеша А., Перейра Ф., Вортман Дж. Границы обучения для адаптации предметной области, Достижения в системах обработки нейронной информации, стр. 129–136, 2008 г.
[2] Y. Mansour, M. Mohri , and A. Rostamizadeh . Domain adaptation with multiple sources. In Advances in neural information processing systems