Краткое чтение статьи «Повторная идентификация лиц без присмотра с помощью многоуровневой классификации»

искусственный интеллект

смысл

В отличие от обычной модели классификации с одной меткой, обученной на основе перекрестной потери энтропии, в этой статье для завершения обучения используется модель классификации с несколькими метками. Так называемая многометочная модель классификации, то есть в начальном процессе одному снимку присваивается отдельный класс, а через последующие итерации снимок не только относится к своему классу, но и относится к другим фотографиям, относящимся к тот же человек, что и на фото. Чтобы повысить эффективность обучения моделей с несколькими классификациями, в этой статье предлагаются потери классификации с несколькими метками на основе памяти (MMCL). Основная идея этой функции потерь заключается в том, что косинусное расстояние между признаками двух изображений с общей меткой должно быть ближе к 1, а с разными метками должно быть ближе к -1.

Обзор модели

Для каждого входного изображения после извлечения признаков они сохраняются в словаре с индексом в качестве значения ключа. В то же время картинка также генерирует one-hot вектор, который является одноклассовой меткой в ​​картинке, в которой только индекс, соответствующий картинке, равен +1, а остальные позиции равны -1. Вектор и словарь памяти получают соответствующую мультиклассовую метку через модуль MPLP.Как и для одноклассовой метки, индекс прогнозируемого класса равен +1, а остальные позиции равны -1. Для каждой категории, предсказанной как 1 в мультиклассовой метке, соответствующие характеристики изображения берутся из памяти, а косинусное расстояние рассчитывается по характеристикам входного изображения в виде баллов. Наконец, мультиклассовые метки и оценки взаимодействуют, чтобы получить окончательный MMCL для оптимизации.

Основное содержание

Учитывая набор данных немаркированных изображенийX={x1,x2,x...,xn}X = \{x_1, x_2, x..., x_n\}, цель состоит в том, чтобы обучить модель ReID на основе этого набора данных. Для любого заданного изображения запросаqq, обученная модель ReID может извлечь функцию для извлечения изображений, принадлежащих одному и тому же человеку, из набора галерей G.gg. Для этого модель ReID должна гарантироватьqqиggСравниватьGGДругие изображения имеют более схожие черты. Тогда конечная цель оптимизации:

g*=argmingеGdist(fg,fq)g^*= \arg \min_{g\in G} dist(f_g, f_q)

для каждой картинкиxix_i, соответствующая инициализированная одноклассовая метка представляет собой двоичный векторLL, длина которого равна n,L[i]=1L[i] = 1, иначе -1. Поскольку изображение может иметь несколько классов, метку одного класса следует изменить на метку нескольких классов. Из-за большого количества изображений в наборе данных сложно обучить классификатор с несколькими метками. Более эффективным решением является использование признаков изображения, соответствующих i-классу.fif_iв качестве классификатора для этого класса. Отсюда можно вычислить любое изображениеxjx_jКлассификационные баллы следующие:

cj[i]=fiT×fjc_j[i] = f_i^T \times f_j, вcjc_jвыражатьxjx_jКлассификационная оценка по нескольким меткам .

memory

использоватьn×dn \times dразмер банка памятиMMдля хранения функций изображения, гдеM[i]=fiM[i] = f_i.

MPLP

Модуль MPLP получает соответствующую метку мультикласса путем ввода метки одного класса и банка памяти.

y^i=MPLP(yi,M)\hat{y}_i = MPLP(y_i, M)

вyiy_iвходная одноклассовая метка,y^i\hat{y}_iявляется выходной мультиклассовой меткой.

данное изображениеxix_iИнициализированная бинарная одноклассовая меткаyiy_i, MPLP работает над поиском другихxix_iкатегория. заxix_i, MPLP сначала согласноxix_iРассчитать рейтинговую таблицу сходства с другими функциямиRiR_i

Ri=argsort(si,j),jе[1,n]R_i = \arg sort(s_{i, j}), j\in[1, n]
si,j=M[i]T×M[j]s_{i, j} = M[i]^T \times M[j]

вsi,js_{i, j}выражатьxix_iиxjx_jоценки сходства между.

в соответствии сRiR_iможет получитьxix_iПодходящий набор доверенных меток, например несколько первых в списке выбора. Однако стабильность таблицы сортировки будет снижена из-за размытия, угла обзора и фоновых эффектов. Поэтому в данной статье представлены следующие две стратегии решения проблемы устойчивости:

  1. Фильтрация тегов на основе показателей сходстваУказав нижний предел оценки достоверности, достоверный набор отфильтровывается какPi=Ri[1:ki]P_i = R_i[1: k_i]Ri[ki]R_i[k_i]это последняя метка с достоверностью выше нижней границы заданного балла. следовательно,kik_iЭто может быть не то же самое для каждой картины.
  2. Фильтрация меток на основе петлевых ограниченийПринцип фильтрации основан на предположении, что если два изображения принадлежат к одной и той же категории, их соседние наборы изображений также должны быть похожими. По этому принципу можно отфильтроватьPiP_iжесткие отрицательные метки в . Пара MPLPPiP_iТеги в просматриваются от начала до конца. заPiP_iметка j in , MPLP вычисляетtopkitop-k_iпоследние теги. если метка i также является одной из меток jtopkitop-k_iближайшая метка, то метка j считаетсяxix_iПоложительный образец. В противном случае он считается жестким отрицательным тегом. Обход останавливается, когда найден первый жесткий отрицательный тег. Это получает положительный набор метокPi*P_i^*.

MMCL

LMMCL=i=1nD(MT×fi,y^i)L_{MMCL} = \sum^n_{i=1} D(M^T \times f_i, \hat{y}_i)
Традиционная функция потерь с несколькими метками MCL
l(jxi)=log(1+exp(y^i[j]×M[j]T×fi))l(j|x_i) = \log(1 + exp(-\hat{y}_i[j] \times M[j]^T \times f_i))
LMCL=i=1nj=1nl(jxi)L_{MCL} = \sum_{i=1}^n\sum_{j=1}^n l(j|x_i)

так какM[j]TM[j]^Tиfif_iявляется L2-усредненным, классификационные баллы ограничены[1,1][-1, 1]между. Это ограничитl(jxi)l(j|x_i)Диапазон сигмовидной функции в , делает невозможным сделать значение потерь равным 0 даже при правильной классификации. Эту проблему можно решить, введя коэффициентт\tauРешите, чтобы функция потерь обновлялась следующим образом

l(jxi)=log(1+exp(y^i[j]×M[j]T×fi/т))l(j|x_i) = \log(1 + exp(-\hat{y}_i[j] \times M[j]^T \times f_i / \tau))

Обозначим соответствующие потери MCL какLMCLтL_{MCL-\tau}, ноLMCLтL_{MCL-\tau}Градиент градиента рассчитывается следующим образом

В соответствии с приведенной выше формулой получается карта градиента, показанная на следующем рисунке.

Очевидно, что модернизированная потеря MCL по-прежнему имеет проблему исчезновения градиента, когда показатель классификации больше 0,25 или меньше -0,25. Другая проблема заключается в том, что, поскольку в задаче задействовано много классов, положительные и отрицательные классы не сбалансированы. Чтобы решить эту проблему, авторы также предлагают потерю MMCL.

Memory-based Multi-label Classification Loss (MMCL)

Во-первых, чтобы решить интервальную проблему оценок, функция потерь модифицируется следующим образом:

l*(jxi)=M[j]T×fiy^i[j]2l^*(j|x_i) = ||M[j]^T \times f_i - \hat{y}_i[j]||^2

Во-вторых, чтобы сбалансировать положительные и отрицательные классы, MMCL вводит жесткий анализ отрицательных классов. заxix_i, отрицательная категория которого может быть отмечена какRi/P*R_i /P^*. Отсортируйте отрицательные категории в соответствии с их классификационными баллами, а затем выберите их верхние категории r% как жесткие отрицательные категории, обозначенные какNi,Ni=(nPi*)rN_i, |N_i|=(n-|P^*_i|)\cdot r%.

Это приводит к новой функции потерь:

Его формула градиента выглядит следующим образом:

LMMCL/fi=2(M[j]T×fiy^i[j])M[j]\partial L_{MMCL}/ \partial f_i = 2 \partial(M[j]^T \times f_i - \hat{y}_i[j])M[j]

Как видно из рисунка выше, этим можно решить проблему исчезновения градиента.

Memory Update

MMОн будет обновляться после каждой итерации обучения, метод обновления аналогичен моменту,

M[i]t=альфаfi+(1альфа)M[i]t1M[i]^t = \alpha \cdot f_i + (1 - \alpha) \cdot M[i]^{t-1}

эксперимент

См. оригинальную бумагу.

Ссылаться на