Работа с неправильно маркированными образцами (обучение с зашумленными этикетками)

1. Co-teaching

image_1eeaarp70ip61scr13dkneglis9.png-59.4kB

На приведенном выше рисунке показано направление потока ошибок трех парадигм обучения.Co-teachingбудет обучать две сети одновременно, на каждом мини-пакете, на каждом выборе сети $R(T)$ Процент потерь относительно невелик, и выборка рассматривается какполезные знания(полезные знания), то поставитьполезные знанияОтправьте его в другую сеть, чтобы продолжить обучение. в то время как два другихсаморазвитиеПуть.

Конкретный алгоритм следующий: image_1eeag6lou1n4o1jbugq2an47n716.png-118.2kB

Предположим, что две сети $f$ (параметры $w_f$ )и $g$ (параметры $w_g$ ) Создание мини-пакета, итеративное обучение $N_{max}$ Второсортный. Выберите тот, у которого наименьшие потери из мини-партии $R(T)$ Процент выборки, записанный как $\bar{D}_f$ и $\bar{D}_w$ , шаги 4, 5. затем обменяться с $\bar{D}_f$ обучать и обновлять $g$ ,использовать $\bar{D}_w$ обучать и обновлять $f$ , шаги 6, 7. $R(T)$ Он уменьшается с шагом обучения, то есть является динамическим и выбирается каждый раз.полезные знаниябудет все меньше и меньше.

В приведенном выше алгоритме есть два важных вопроса, которые необходимо объяснить:

Почему по динамике $R(T)$ Может ли отбор образцов с малыми потерями помочь нам найти чистые образцы?
Зачем вам две сети и параметры кросс-обновления?

Пояснение к первому вопросу: Во-первых, когда метки правильные, образцы с небольшими потерями с большей вероятностью будут иметь правильные метки. Итак, если мы толькоОбразцы образцов с низкими потерямиобучить классификатор, который должен быть устойчив к зашумленным меткам. Однако для этого требуется, чтобы классификатор был достаточно надежным, чтобы гарантировать, что образцы с небольшими потерями действительно чистые. Обычно глубокие сети являются «памятью», то есть даже на зашумленных наборах данных сеть будетИзучите чистый и простой шаблон для первых эпох, поэтому модель имеет возможность отфильтровывать зашумленные данные в начале обучения. Однако по мере обучения модель постепенно соответствует этим зашумленным данным. Поэтому, чтобы воспользоваться этим законом, приведенный выше алгоритм выбирает более достоверные данные в начальной мини-партии и постепенно уменьшает их по мере обучения. По второму вопросу: Только представьте, когда студенты проверяют свои работы, им трудно найти ошибки, потому что они имеют личную предвзятость к своим ответам, но легче найти ошибки, когда они обращаются к сверстникам за помощью в проверке своих работ. Обычно разные классификаторы могут изучать разные границы принятия решений и иметь разные возможности обучения. Поэтому, когда мы обучаем модели на зашумленных данных, мы также ожидаем, что они будут обладать разными способностями к фильтрации шума. Это вдохновляет нас на обмен образцами с небольшими потерями, т.е. $g$ (или $f$ ), выбранный в образце мини-пакетного обновления $f$ (или $g$ ) параметры. Этот процесс похож на совместное обучение, если выбранные образцы зашумлены, две сети будут адаптивно исправлять ошибку обучения другой сети. В целом, ошибки из сети не передаются напрямую обратно в саму себя, и мы ожидаем, что метод совместного обучения сможет работать с более зашумленными данными, чем саморазвивающийся подход.

【Ссылаться на:】paper

2. Уверенное обучение

Обучение уверенности в три шага:

Подсчет, расчетная шумовая метка по сравнению с истинной меткойсовместное распределение
Очистить, чтобы очистить образцы ошибок.
Повторное обучение: после очистки отрегулируйте веса категорий выборки и используйте совместное обучение для повторного обучения.

На приведенном выше рисунке показана структура доверительного обучения, Подробно описаны следующие три шага:

1.Count

Определите метку шума как $\hat{y}$ , то есть образцы, которые изначально были помечены (возможно, помечены вручную), но могут содержать ошибки. Определите истинную метку как $y^*$ , но на самом деле мы не получаем истинную метку, обычноПерекрестная проверка1Оцените истинные этикетки. Общее количество образцов равно $n$ , общее количество категорий равно $m$ .

Шаги для оценки совместного распределения следующие:

Наша цель — оценить совместное распределение вероятностей $\hat{Q}_{\hat{y},y^*}$ определить категорию шума. Вычислив число в матрице путаницы, а затем исправив количество меток для каждой метки,

шаг 1, перекрестная проверка

Во-первых, путем перекрестной проверки вычислить первый $i$ образцы в $j$ Вероятности по каждой категории: $P[i][j]$
рассчитать каждыйКатегория ручной маркировки $j$ средняя вероятность $t[j]$ , в видедоверительный порог.
Завершить образец $i$ настоящая этикетка. , его истинная метка $y^*$ за $j$ максимальная вероятность среди классов $argmax_jP[i][j]$ , и должен удовлетворить $P[i][j]$ > $t[j]$ .

step2, вычислить матрицу подсчета $C_{\hat{y},y^*}$ (аналогично матрице путаницы). Как показано на рисунке 1, $C_{\hat{y}=dog,y^=fox*}=40$ , что указывает на то, что x искусственно помечен как собака, но на самом деле является лисой, и имеется 40 образцов. Алгоритм следующий:

image_1eeheps02s7rj471qononf7av9.png-252.3kB

шаг 3, расчетКоррекцияМатрица подсчета, поскольку при расчете на предыдущем шаге есть условие, которое должно быть больше, чем t[j], поэтому матрица подсчета $C_{\hat{y},y^*}$ и меньше общего числа выборок. Итак, этот шагЦель состоит в том, чтобы сделать сумму подсчетов такой же, как общее количество образцов, помеченных вручную.. в, $X_{\hat{y}=i}$ Представляет аннотированную человеком метку $\hat{y} = i$ общее количество проб.

image_1eehgp5i59431tljgr3ij91gd7m.png-7.4kB

Шаг 4: Расчет совместного распределения $Q_{\hat{y},y^*}$ , то есть разделить приведенный выше результат на общее количество выборок:

image_1eehntrcc1prs1pskvtl17bs1dj923.png-7.1kB

2.Clean

После получения совместного распределения шумовых меток и истинных меток $Q_{\hat{y},y^*}$ , в документе предлагается всего 5 методов фильтрации выборок ошибок:

M1: $C_{confusion}$ , Выбрать $\hat{y} != argmax_{i\in{1,2,...m}}{P[i][j]}$ Фильтрация выборки , т.е. для выборки $i$ , и отфильтруйте, если ручная метка отличается от максимальной метки, предсказанной моделью.
M2: выберите матрицу количества конструкций $C_{\hat{y},y^*}$ При этом пробы, попадающие в диагональную ячейку, фильтруются.
M3: Сокращение по классам (PBC), для каждого класса $i\in{1...m}$ выберите $n.\sum_{j\in{1..m:j!=i}}{C_{\hat{y}=i,y^*=j}[i]}$ отсчетов, где n – общее количество отсчетов, согласно $P[i][j]$ Сортировка, фильтрация по наименьшему количеству баллов.
M4:Обрезать по коэффициенту шума (PBNR) , для недиагональных ячеек выберите $n.Q_{\hat{y}=i,y^*=j}$ образцы фильтруются в соответствии с $P[\hat{y}=i]$ - $P[\hat{y}=j]$ Сортировка, фильтрация по наименьшему количеству баллов.

3.Re-Training

После фильтрации ошибочных выборок по совместному распределению $Q_{\hat{y},y^*}$ каждая категория $i$ Приведенные ниже веса потерь переназначаются следующим образом: $\frac{1}{p(\hat{y} =i|y^*=i)} = \frac{Q_{y^*}[i]}{Q_{\hat{y},y^*}[i][i]}$

в: $Q_{y^*}[i]=\sum_{j=i..m}{Q_{\hat{y},y^*}[j][i]}$ Тогда возьмите фреймворк Co-Teaching для переподготовки.

【Ссылаться на:】cleanlab Ссылка 1

3. Searching to Exploit Memorization Effect in Learning with Noisy Labels

(продолжение следует...)