1. Co-teaching
На приведенном выше рисунке показано направление потока ошибок трех парадигм обучения.Co-teachingбудет обучать две сети одновременно, на каждом мини-пакете, на каждом выборе сети
Конкретный алгоритм следующий:
Предположим, что две сети
В приведенном выше алгоритме есть два важных вопроса, которые необходимо объяснить:
- Почему по динамике
Может ли отбор образцов с малыми потерями помочь нам найти чистые образцы? - Зачем вам две сети и параметры кросс-обновления?
Пояснение к первому вопросу:
Во-первых, когда метки правильные, образцы с небольшими потерями с большей вероятностью будут иметь правильные метки. Итак, если мы толькоОбразцы образцов с низкими потерямиобучить классификатор, который должен быть устойчив к зашумленным меткам. Однако для этого требуется, чтобы классификатор был достаточно надежным, чтобы гарантировать, что образцы с небольшими потерями действительно чистые.
Обычно глубокие сети являются «памятью», то есть даже на зашумленных наборах данных сеть будетИзучите чистый и простой шаблон для первых эпох, поэтому модель имеет возможность отфильтровывать зашумленные данные в начале обучения. Однако по мере обучения модель постепенно соответствует этим зашумленным данным. Поэтому, чтобы воспользоваться этим законом, приведенный выше алгоритм выбирает более достоверные данные в начальной мини-партии и постепенно уменьшает их по мере обучения.
По второму вопросу:
Только представьте, когда студенты проверяют свои работы, им трудно найти ошибки, потому что они имеют личную предвзятость к своим ответам, но легче найти ошибки, когда они обращаются к сверстникам за помощью в проверке своих работ.
Обычно разные классификаторы могут изучать разные границы принятия решений и иметь разные возможности обучения. Поэтому, когда мы обучаем модели на зашумленных данных, мы также ожидаем, что они будут обладать разными способностями к фильтрации шума. Это вдохновляет нас на обмен образцами с небольшими потерями, т.е.
【Ссылаться на:】paper
2. Уверенное обучение
Обучение уверенности в три шага:
- Подсчет, расчетная шумовая метка по сравнению с истинной меткойсовместное распределение
- Очистить, чтобы очистить образцы ошибок.
- Повторное обучение: после очистки отрегулируйте веса категорий выборки и используйте совместное обучение для повторного обучения.
На приведенном выше рисунке показана структура доверительного обучения, Подробно описаны следующие три шага:
1.Count
Определите метку шума как
Шаги для оценки совместного распределения следующие:
Наша цель — оценить совместное распределение вероятностей
- шаг 1, перекрестная проверка
- Во-первых, путем перекрестной проверки вычислить первый
образцы в Вероятности по каждой категории: - рассчитать каждыйКатегория ручной маркировки
средняя вероятность , в видедоверительный порог. - Завершить образец
настоящая этикетка. , его истинная метка за максимальная вероятность среди классов , и должен удовлетворить > .
- step2, вычислить матрицу подсчета
(аналогично матрице путаницы). Как показано на рисунке 1, , что указывает на то, что x искусственно помечен как собака, но на самом деле является лисой, и имеется 40 образцов. Алгоритм следующий:
- шаг 3, расчетКоррекцияМатрица подсчета, поскольку при расчете на предыдущем шаге есть условие, которое должно быть больше, чем t[j], поэтому матрица подсчета
и меньше общего числа выборок. Итак, этот шагЦель состоит в том, чтобы сделать сумму подсчетов такой же, как общее количество образцов, помеченных вручную.. в, Представляет аннотированную человеком метку общее количество проб.
- Шаг 4: Расчет совместного распределения
, то есть разделить приведенный выше результат на общее количество выборок:
2.Clean
После получения совместного распределения шумовых меток и истинных меток
-
M1:
, Выбрать Фильтрация выборки , т.е. для выборки , и отфильтруйте, если ручная метка отличается от максимальной метки, предсказанной моделью. -
M2: выберите матрицу количества конструкций
При этом пробы, попадающие в диагональную ячейку, фильтруются. -
M3: Сокращение по классам (PBC), для каждого класса
выберите отсчетов, где n – общее количество отсчетов, согласно Сортировка, фильтрация по наименьшему количеству баллов. -
M4:Обрезать по коэффициенту шума (PBNR) , для недиагональных ячеек выберите
образцы фильтруются в соответствии с - Сортировка, фильтрация по наименьшему количеству баллов.
3.Re-Training
После фильтрации ошибочных выборок по совместному распределению
в:
【Ссылаться на:】cleanlab Ссылка 1
3. Searching to Exploit Memorization Effect in Learning with Noisy Labels
(продолжение следует...)