Краткое чтение статьи «Повторная идентификация лиц без присмотра с помощью многоуровневой классификации»

смысл

В отличие от обычной модели классификации с одной меткой, обученной на основе перекрестной потери энтропии, в этой статье для завершения обучения используется модель классификации с несколькими метками. Так называемая многометочная модель классификации, то есть в начальном процессе одному снимку присваивается отдельный класс, а через последующие итерации снимок не только относится к своему классу, но и относится к другим фотографиям, относящимся к тот же человек, что и на фото. Чтобы повысить эффективность обучения моделей с несколькими классификациями, в этой статье предлагаются потери классификации с несколькими метками на основе памяти (MMCL). Основная идея этой функции потерь заключается в том, что косинусное расстояние между признаками двух изображений с общей меткой должно быть ближе к 1, а с разными метками должно быть ближе к -1.

Обзор модели

Для каждого входного изображения после извлечения признаков они сохраняются в словаре с индексом в качестве значения ключа. В то же время картинка также генерирует one-hot вектор, который является одноклассовой меткой в картинке, в которой только индекс, соответствующий картинке, равен +1, а остальные позиции равны -1. Вектор и словарь памяти получают соответствующую мультиклассовую метку через модуль MPLP.Как и для одноклассовой метки, индекс прогнозируемого класса равен +1, а остальные позиции равны -1. Для каждой категории, предсказанной как 1 в мультиклассовой метке, соответствующие характеристики изображения берутся из памяти, а косинусное расстояние рассчитывается по характеристикам входного изображения в виде баллов. Наконец, мультиклассовые метки и оценки взаимодействуют, чтобы получить окончательный MMCL для оптимизации.

Основное содержание

Учитывая набор данных немаркированных изображений $X = \{x_1, x_2, x..., x_n\}$ , цель состоит в том, чтобы обучить модель ReID на основе этого набора данных. Для любого заданного изображения запроса $q$ , обученная модель ReID может извлечь функцию для извлечения изображений, принадлежащих одному и тому же человеку, из набора галерей G. $g$ . Для этого модель ReID должна гарантировать $q$ и $g$ Сравнивать $G$ Другие изображения имеют более схожие черты. Тогда конечная цель оптимизации:

g^*= \arg \min_{g\in G} dist(f_g, f_q)

для каждой картинки $x_i$ , соответствующая инициализированная одноклассовая метка представляет собой двоичный вектор $L$ , длина которого равна n, $L[i] = 1$ , иначе -1. Поскольку изображение может иметь несколько классов, метку одного класса следует изменить на метку нескольких классов. Из-за большого количества изображений в наборе данных сложно обучить классификатор с несколькими метками. Более эффективным решением является использование признаков изображения, соответствующих i-классу. $f_i$ в качестве классификатора для этого класса. Отсюда можно вычислить любое изображение $x_j$ Классификационные баллы следующие:

$c_j[i] = f_i^T \times f_j$ , в $c_j$ выражать $x_j$ Классификационная оценка по нескольким меткам .

memory

использовать $n \times d$ размер банка памяти $M$ для хранения функций изображения, где $M[i] = f_i$ .

MPLP

Модуль MPLP получает соответствующую метку мультикласса путем ввода метки одного класса и банка памяти.

\hat{y}_i = MPLP(y_i, M)

в $y_i$ входная одноклассовая метка, $\hat{y}_i$ является выходной мультиклассовой меткой.

данное изображение $x_i$ Инициализированная бинарная одноклассовая метка $y_i$ , MPLP работает над поиском других $x_i$ категория. за $x_i$ , MPLP сначала согласно $x_i$ Рассчитать рейтинговую таблицу сходства с другими функциями $R_i$

R_i = \arg sort(s_{i, j}), j\in[1, n]

s_{i, j} = M[i]^T \times M[j]

в $s_{i, j}$ выражать $x_i$ и $x_j$ оценки сходства между.

в соответствии с $R_i$ может получить $x_i$ Подходящий набор доверенных меток, например несколько первых в списке выбора. Однако стабильность таблицы сортировки будет снижена из-за размытия, угла обзора и фоновых эффектов. Поэтому в данной статье представлены следующие две стратегии решения проблемы устойчивости:

Фильтрация тегов на основе показателей сходстваУказав нижний предел оценки достоверности, достоверный набор отфильтровывается как $P_i = R_i[1: k_i]$ ,в $R_i[k_i]$ это последняя метка с достоверностью выше нижней границы заданного балла. следовательно, $k_i$ Это может быть не то же самое для каждой картины.
Фильтрация меток на основе петлевых ограниченийПринцип фильтрации основан на предположении, что если два изображения принадлежат к одной и той же категории, их соседние наборы изображений также должны быть похожими. По этому принципу можно отфильтровать $P_i$ жесткие отрицательные метки в . Пара MPLP $P_i$ Теги в просматриваются от начала до конца. за $P_i$ метка j in , MPLP вычисляет $top-k_i$ последние теги. если метка i также является одной из меток j $top-k_i$ ближайшая метка, то метка j считается $x_i$ Положительный образец. В противном случае он считается жестким отрицательным тегом. Обход останавливается, когда найден первый жесткий отрицательный тег. Это получает положительный набор меток $P_i^*$ .

MMCL

L_{MMCL} = \sum^n_{i=1} D(M^T \times f_i, \hat{y}_i)

Традиционная функция потерь с несколькими метками MCL

l(j|x_i) = \log(1 + exp(-\hat{y}_i[j] \times M[j]^T \times f_i))

L_{MCL} = \sum_{i=1}^n\sum_{j=1}^n l(j|x_i)

так как $M[j]^T$ и $f_i$ является L2-усредненным, классификационные баллы ограничены $[-1, 1]$ между. Это ограничит $l(j|x_i)$ Диапазон сигмовидной функции в , делает невозможным сделать значение потерь равным 0 даже при правильной классификации. Эту проблему можно решить, введя коэффициент $\tau$ Решите, чтобы функция потерь обновлялась следующим образом

l(j|x_i) = \log(1 + exp(-\hat{y}_i[j] \times M[j]^T \times f_i / \tau))

Обозначим соответствующие потери MCL как $L_{MCL-\tau}$ , но $L_{MCL-\tau}$ Градиент градиента рассчитывается следующим образом

В соответствии с приведенной выше формулой получается карта градиента, показанная на следующем рисунке.

Очевидно, что модернизированная потеря MCL по-прежнему имеет проблему исчезновения градиента, когда показатель классификации больше 0,25 или меньше -0,25. Другая проблема заключается в том, что, поскольку в задаче задействовано много классов, положительные и отрицательные классы не сбалансированы. Чтобы решить эту проблему, авторы также предлагают потерю MMCL.

Memory-based Multi-label Classification Loss (MMCL)

Во-первых, чтобы решить интервальную проблему оценок, функция потерь модифицируется следующим образом:

l^*(j|x_i) = ||M[j]^T \times f_i - \hat{y}_i[j]||^2

Во-вторых, чтобы сбалансировать положительные и отрицательные классы, MMCL вводит жесткий анализ отрицательных классов. за $x_i$ , отрицательная категория которого может быть отмечена как $R_i /P^*$ . Отсортируйте отрицательные категории в соответствии с их классификационными баллами, а затем выберите их верхние категории r% как жесткие отрицательные категории, обозначенные как $N_i, |N_i|=(n-|P^*_i|)\cdot r%$ .

Это приводит к новой функции потерь:

Его формула градиента выглядит следующим образом:

\partial L_{MMCL}/ \partial f_i = 2 \partial(M[j]^T \times f_i - \hat{y}_i[j])M[j]

Как видно из рисунка выше, этим можно решить проблему исчезновения градиента.

Memory Update

$M$ Он будет обновляться после каждой итерации обучения, метод обновления аналогичен моменту,

M[i]^t = \alpha \cdot f_i + (1 - \alpha) \cdot M[i]^{t-1}

эксперимент

См. оригинальную бумагу.

Ссылаться на

[1] Unsupervised Person Re-identification via Multi-label Classification