Обучение шумовым меткам на основе глубоких нейронных сетей

Аннотация: В этой статье представлены передовые методы в области шумного обучения и решается стратегия оптимизации нейронной сети в несовершенных сценариях с целью повышения производительности модели.

Эта статья опубликована в сообществе HUAWEI CLOUD.«Учимся на шумных этикетках с помощью глубоких нейронных сетей», Автор оригинала: Guess ditch.

Введение:

Успех нейронных сетей основан на больших объемах чистых данных и моделях глубоких сетей. Однако в реальных сценариях данные и модели часто не идеальны.Например, если уровень данных помечен неправильно, например, щенок помечен как волк, а реальный бизнес-сценарий чувствителен ко времени, количество слоев нейронная сеть не может быть особенно глубокой. Мы стараемся постоянно повторять эффективный метод обучения нейронной сети в случае дефектов данных и модели и решать проблему зашумленных данных в процессе обучения сети с помощью технологии шумного обучения меток, Эта технология была реализована в реальных бизнес-сценариях team., регуляризация модели, настройка функции потерь, выборка выборки, коррекция меток и оптимизация других модулей, не ограничиваясь полностью контролируемыми, частично контролируемыми и самоконтролируемыми методами обучения, для повышения надежности всей модели.

Рамки:

【Надежная функция потери】

Он в основном модифицирован из функции потерь.Основная идея заключается в том, что, когда данные в целом чистые, традиционная функция кросс-энтропийных потерь изучает небольшое количество отрицательных выборок, что может повысить надежность модели;когда шум данных является относительно большим, CE будет. Полоса данных шума отклоняется, нам нужно изменить функцию потерь, чтобы сделать вес каждого образца в обучении одинаково важным, поэтому нетрудно подумать об использовании GCE Loss для управления гиперпараметрами, комбинируя CE Убыток и убыток MAE

А. Гош, Х. Кумар и П. Састри, «Надежные функции потерь при шуме меток для глубоких нейронных сетей», в Proc. AAAI, 2017 г.
Generalized Cross Entropy Loss for Training Deep NeuralNetworks with Noisy Labels, NeurlPS 2018

Кроме того, есть идеи, заимствованные из КЛ-дивергенции.Автор считает, что при вычислении энтропии реальное распределение данных и прогнозируемые значения, представленные исходными q и p, имеют проблему не на относительно чистых данных, а на относительно зашумленных данных. возможно, q не представляет реальное распределение данных, напротив, может ли p представлять реальное распределение данных, поэтому предлагается симметричная функция кросс-энтропийных потерь (симметричная кроссэнтропия).

Y. Wang, X. Ma, Z. Chen, Y. Luo, J. Yi и J. Bailey, «Симметричная кросс-энтропия для надежного обучения с зашумленными метками», в Proc. ICCV, 2019, стр. 322–330.

【Надежная архитектура】

Эта часть в основном использует оригинальную сетевую структуру для справки.Во время процесса обучения модели данные выбираются через модель, и выбирается пакет относительно чистых данных для постепенного повышения надежности модели. Первое, что нужно ввести, это coteachingframework, Во-первых, выбрать данные на основе двух моделей и ввести их друг в друга для расчета потерь.Данные, передаваемые в сеть другой стороны, — это данные с наименьшими потерями в каждой минимальной партии. По мере увеличения эпохи увеличивается объем данных Кроме того, после окончания каждого цикла эпохи данные будут перемешиваться, чтобы гарантировать, что данные не будут навсегда забыты.

How does Disagreement Help Generalization against LabelCorruption? ICML 2019
Co-teaching: Robust Training of Deep Neural Networks withExtremely Noisy Labels, NeurlPS 2018

Другая идея состоит в том, чтобы оценивать чистые образцы и зашумленные данные на основе механизма внимания.Статья называется AttentionFeature Mixup.При расчете окончательной потери есть две части: одна - перекрестная энтропия, рассчитанная для каждого изображения и метки одного и того же класса Loss; другая потеря - это потеря, рассчитанная по новым данным x' и метке y', полученным в результате смешения данных.

【Надежная регуляризация】

Эта часть в основном предназначена для добавления регулярных тиков, чтобы предотвратить переоснащение модели зашумленными данными.Обычно используемые обычные методы включают: сглаживание меток, l1, l2, MixUp и т. д.

【Регулировка убытков】

Эта часть фактически представляет собой обучающие тики, по сути, она неотделима от улучшения функции потерь, подробные тики здесь не приводятся.

【Отбор проб】

Этот модуль в основном основан на том, как выбирать более качественные данные.Один метод, называемый метрикой Area Under the Margin (AUM), является чемпионом, в котором мы участвовали в CVPR WebVision 2020 (соревнование самого высокого уровня в области распознавания изображений, пришедшее на смену ImageNet). в прошлом году план. Эта схема представляет собой способ фильтрации данных во время обучения в процессе обучения.Конкретная идея состоит в том, чтобы использовать модель для расчета значения логитов каждого изображения и самых больших логитов в других классах в минимальной партии.Средняя эпоха для получения аум значение каждого графика. Эксперимент показал, что если данные относительно чистые, значение области будет относительно большим.Если значение области данных с неправильными метками относительно мало или даже отрицательно, автор использует эту идею для разделения чистых данных. и шумовые данные класса. Он открыт. Конечно, в конце статьи также указано, что порог 99% чистых данных и зашумленных данных является оптимальным.

Плейсс, Джефф и др. «Идентификация неправильно маркированных данных с использованием области под ранжированием полей», NeurlPS 2020.

В другой статье разделение данных основано на идее кластеризации плотности, а данные класса делятся на простой набор данных, набор данных smi-hard и жесткий набор данных, Как правило, шумовые данные - это данные, которые сложнее обучить Каждому изображению присваивается вес, рекомендуются 1,0, 0,5 и 0,5, обучение модели опирается на идеи курсового обучения.

Guo, Sheng, et al. "Curriculumnet: Weakly supervisedlearning from large-scale web images." Proceedings of the European Conferenceon Computer Vision (ECCV). 2018.

【Обучение под наблюдением】

Алгоритм шумного обучения, основанный на обучении с полуучителем, сначала вводит метод DivideMix, который на самом деле является идеей совместного обучения, но после выбора чистых сэмплов и сэмплов шума сэмплы шума рассматриваются как немаркированные сэмплы и обучаются Метод FixMatch , текущая SOTA для полуконтролируемой классификации изображений по-прежнему должна быть FixMatch, которая может достигать результатов, близких к контролируемым, при 90% немаркированных образцов ... Таким образом, идея получения высокой точности сейчас в основном в сторону полуконтролируемого и как завершить Различать общее направление шума.

Общий конвейер разделен на две части: совместное разделение и частично контролируемое обучение.

Co-Divide частично использует предварительно обученную модель для расчета потерь для выборок N. Вот предположение. Эти переменные N генерируются смесью двух распределений Гаусса. Распределение с большим средним значением является выборкой шума, а среднее значение выше Наименьший - это чистая выборка, тогда на основе этой настройки мы можем вычислить вероятность wi того, что она принадлежит к чистой выборке по потерям каждой выборки, и получить пороговое значение, после чего обучающие данные можно разделить на две группы в соответствии с установленным пороговым значением.Маркированные и немаркированные категории, а затем учиться на методе SSL для обучения.

Следует отметить, что для сходимости модели нам необходимо использовать все данные для обучения модели за несколько эпох, прежде чем разделить данные для достижения цели «разогрева». Однако процесс «прогрева» приведет к тому, что модель переобучит выборки асимметричного шума, так что выборки шума также будут иметь небольшие потери, так что GMM будет нелегко различить, что повлияет на последующее обучение. Чтобы решить эту проблему, мы можем добавить дополнительный регулярный член -H на основе исходной потери перекрестной энтропии, когда мы «разогреваем» обучение, Распределение вероятностей сглажено, что предотвращает слишком «уверенную» модель .

После разделения обучающих данных мы можем использовать некоторые готовые полууправляемые методы обучения для обучения модели.В статье используется широко используемый в настоящее время метод MixMatch, но перед использованием MixMatch в статье также выполняется совместное уточнение и совместное думаю улучшение.

DivideMix: Learning with Noisy Labels as Semi-supervisedLearning. ICLR 2020

【Исправление ярлыка】

Идея метода исправления метки очень проста, что эквивалентно концепции повторной маркировки псевдометки, но слишком жестоко, чтобы полностью отказаться от исходной метки.Эта статья ICCV2019 получает случайный выбор каждого из нескольких изображения в классе используют метод кластеризации для получения центра кластеризации каждого класса образца-прототипа, вычисляют расстояние между вектором признаков, полученным из входного изображения, и различными центрами кластеризации, и получают псевдометку изображения. окончательная потеря - это исходная сумма потерь перекрестной энтропии для вычисления метки и псевдометки для вычисления псевдометки.

Хань, Цзянфань, Пин Луо и Сяоган Ван, «Углубленное самообучение на шумных лейблах», ICCV 2019.

Результат и заключение:

Исследования в области шумного обучения очень значимы. Мы проверили это на нашей сцене, и есть хорошие улучшения. Минимум — 2-3 балла улучшения, а самый высокий — 10 баллов. Конечно, в Сцена Verification не может полностью объяснить эффективность метода.Мы также обнаружили, что сочетание нескольких методов иногда не улучшает производительность двойника, но может снизить конечный результат.

Мы надеемся использовать идею AutoML для выбора оптимального метода комбинации и надеемся, что метод шумного обучения может быть более переносимым, Ведь большинство из них по-прежнему ориентированы на задачи классификации. Позже мы также рассмотрим Роль мета-обучения в привлечении методов в области обучения шуму, и мы будем продолжать обновлять последние методы каждого модуля, совершенные в mmclassification, приветствуем общение друг с другом.

Нажмите, чтобы загрузить вложение

Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~