CVPR2018: Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatio-temporal Patterns
Бумаги можно найти наскачать архив, босс сделал первую работу, а я сделал вторую работу.Это также первая работа CCF A в нашей лаборатории.Мы называем этот метод TFusion.
- Цель решения — Person Reid в наборах данных.
- относятся к неконтролируемому обучению
- Метод представляет собой мультимодальное слияние данных + трансферное обучение.
- По экспериментальному эффекту он превосходит все неконтролируемые методы Персона Рида, приближается к контролируемым методам и даже превосходит контролируемые методы на некоторых наборах данных.
Эта статья интерпретирует CVPR2018 TFusion для вас
Пожалуйста, указывайте автора при перепечаткечай мечты
Task
Повторная идентификация человека — это задача поиска изображений.По набору изображений (пробе) для каждой картинки в пробе найдите изображения, которые с наибольшей вероятностью принадлежат одному и тому же пешеходу из набора изображений-кандидатов (галереи).
Набор данных повторной идентификации пешеходов фиксируется серией камер наблюдения, и алгоритм обнаружения используется для вырезания пешеходов в соответствии с пешеходами. В этих наборах данных лицо очень размыто и не может использоваться в качестве признака соответствия, а из-за разных углов съемки нескольких камер один и тот же человек может быть сфотографирован спереди, сбоку и сзади с разными визуальными характеристиками, поэтому это относительно сложная проблема сопоставления изображений. Существует много часто используемых наборов данных, которые можно найти вэтот сайтнашел.
Related Work
Существует несколько распространенных решений проблемы повторной идентификации пешеходов:
Повторная идентификация человека на основе зрения
Этот тип метода обычно извлекает особенности изображений пешеходов и измеряет расстояние между ними, чтобы определить, является ли это одним и тем же человеком.
контролируемое обучение
Этот тип метода обычно требует предоставления изображений пешеходов и меток идентификаторов пешеходов (человек1, человек2 и т. д.), обучения модели, извлечения признаков изображения и в соответствии с расстоянием между двумя элементами изображения (можно использовать косинусное расстояние, евклидово расстояние и другие расчеты), т.к. Вычислить сходство между каждой картинкой в пробнике и каждой картинкой в галерее, и отсортировать картинки в галерее по сходству.Чем выше порядок, тем больше вероятность, что это один и тот же человек.
Репрезентативными документами в этом отношении являются TOMM2017: дискриминационно изученное вложение CNN для повторной идентификации человека, Базовый классификатор изображений, который мы используем, основан на этом документе и реализован с помощью Keras, который будет подробно обсуждаться позже.
неконтролируемое обучение
До CVPR2018 единственной неконтролируемой работой, официально опубликованной в области Person Reid, была UMDL CVPR2016: неконтролируемое обучение переносу наборов данных для повторной идентификации человека, метод обучения на основе словаря, который изучает инвариантный словарь между наборами данных на нескольких исходных наборах данных. , Перейдите к целевому набору данных. Тем не менее, уровень точности все еще очень низок.
Повторная идентификация пешеходов в сочетании с топологией камеры
Пешеходные изображения фиксируются камерами, между камерами существует определенное расстояние, а движение пешеходов имеет определенное ограничение скорости, поэтому время движения пешеходов между камерами будет иметь определенную закономерность.Скорость пешехода составляет 2 м/с. Камера AB захватывает два изображения в течение 1 с, два изображения не могут быть одного и того же человека, поэтому мы можем использовать ограничения топологии камеры для повышения точности повторной идентификации пешеходов.
Однако такие методы часто имеют следующие недостатки:
- Для некоторых методов необходимо заранее знать топологию камеры (расстояние между камерами AB).
- Некоторые методы могут сделать вывод о топологии камеры на основе данных захваченного изображения, но требуют, чтобы изображение было помечено (независимо от того, является ли это одним и тем же человеком).
- Даже с предполагаемой топологией камеры слияние с изображениями по-прежнему оставляет желать лучшего.
передача обучения
Трансферное обучение в настоящее время является очень распространенной процедурой в области глубокого обучения, предварительной подготовки на исходном наборе данных и точной настройки целевого набора данных, чтобы модель исходного набора данных могла адаптироваться к целевой сцене. Документы в этой области представлены вышеупомянутым UMDL иDeep transfer learning person re-identificationТем не менее, большая часть текущего трансферного обучения требует меток, а неконтролируемое трансферное обучение имеет низкую производительность, и еще есть много возможностей для улучшения.
Для получения дополнительной информации о Person Reid вы можете прочитать несколько статей, которые я написал в своем блоге.исследовательская работа
Motivation
- Содержит ли существующий набор данных повторной идентификации человека пространственно-временную информацию? Есть ли во включенных словах пространственно-временной закон?
- Как добывать пространственно-временную информацию и строить пространственно-временную модель, когда нет метки о том, принадлежат ли две пространственно-временные точки одному и тому же пешеходу?
- Как объединить два слабых классификатора? Существуют повышающие алгоритмы для контролируемого слияния, но как насчет неконтролируемого?
- Как провести эффективное трансфертное обучение без ярлыков?
Соответствует трем точкам инноваций
- Самостоятельное построение пространственно-временной модели
- Слияние пространственно-временных моделей изображений на основе байесовского вывода
- Перенос обучения на основе обучения в рейтинг
Далее мы подробно разберем наш метод.
пространственно-временная модель
Пространственно-временные закономерности в наборах данных
Так называемая пространственно-временная модель относится к распределению времени миграции пешеходов между заданными двумя камерами в сети камер.
Мы просмотрели все наборы данных Reid и обнаружили, что есть три набора данных с пространственно-временной информацией, Market1501, GRID, DukeMTMC-ReID, Среди них DukeMTMC-ReID вышел во второй половине 2017 года, и время было относительно ускоренным, поэтому было в статью не включены связанные эксперименты. Market1501 — это относительно большой набор данных Person Reid, а GRID — относительно небольшой набор данных Person Reid, и оба имеют шесть камер (хотя в GRID введено 8 камер, на самом деле данных только с 6 камер).
Например, пространственно-временная информация изображения в Marke1501 записывается в имени изображения:
0007_c3s3_077419_03.jpg:
- 0007 представляет идентификатор человека,
- с3 значит снято на камеру №3, то есть пространственная информация,
- s3 представляет собой третий временной ряд (в GRID и DukeMTMC нет информации об этой последовательности. В Market1501 видео разных последовательностей относятся к разным временам начала, а времена начала видео с разных камер в одной серии схожи),
- 077419 — это номер кадра, то есть информация о времени.
На что я хочу пожаловаться, так это на то, что пространственно-временную информацию на самом деле очень легко сохранить. Пока вы знаете, когда был сделан снимок и какой камерой был сделан снимок, вы можете записывать и эффективно использовать пространственно-временную информацию. Я надеюсь, что мультимодальное слияние данных будет получают больше внимания, после чего люди, которые создают наборы данных, могут уделять больше внимания информации, которую можно сохранить.
Сначала вычисляем все图片对
соответствующий时空点对
Соответствующее время миграции здесь визуализирует распределение времени, которое требуется пешеходам от камеры 1, чтобы добраться до других камер.
Видно, что положения пиков, достигающих разных целевых камер, различаются.От камеры 1 к камере 1 это означает, что одна камера захватывает несколько последовательных кадров, поэтому пики концентрируются вокруг 0, а от камеры 1 к камере 2 , пики сосредоточены в - Около 600, это означает, что большинство людей перемещаются из камеры 2 в камеру 1 в одном направлении и т. д., и это показывает, что в этом наборе данных имеются значительные пространственно-временные закономерности.
Неконтролируемое построение пространственно-временной модели
Разницу во времени миграции мы назвали дельтой, что удобно говорить (притворяться).
Если мы можем подсчитать все дельты в наборе данных, учитывая новую дельту (рассчитанную из двух пространственно-временных точек, соответствующих двум новым изображениям), мы можем использовать оценку максимального правдоподобия, чтобы использовать ее в определенном диапазоне до и после этой дельты. появления дельты (например, 100 кадров) (= количество дельт в целевом диапазоне/общее количество дельт), как вероятность новой разницы во времени, то есть вероятность того, что две пространственно-временные точки созданные одним и тем же человеком.
но! Проблема в том, что у нас часто нет данных о пешеходах в целевой сцене!
так что мысчитать,
- Можем ли мы решить, принадлежат ли две точки пространства-времени одному и тому же человеку, основываясь на том, принадлежат ли два изображения, соответствующие двум точкам пространства-времени, одному и тому же человеку?
- Принадлежность двух изображений одному и тому же человеку на самом деле является проблемой бинарной классификации сопоставления изображений.Для этого мы можем использовать некоторые визуальные модели.
- Однако такую визуальную модель часто нужно обучать с помощью меток, а визуальная модель без меток часто оказывается слабее.
- Это нормально иметь слабую визуальную модель! Мы считаем, что в сочетании с пространственно-временной моделью это может стать мощным классификатором! Иметь веру!
- Пока мы можем построить пространственно-временную модель без учителя в сочетании со слабым классификатором изображений из-за добавления пространственно-временной информации, мы определенно можем превзойти другие модели без учителя!
С идеей реализация очень естественна.
- Сначала мы предварительно обучаем сверточную нейронную сеть на других наборах данных (поэтому мы можем сказать, что это задача кросс-набора данных),
- Затем используйте эту сверточную нейронную сеть для извлечения признаков из целевого набора данных,
- Вычислить сходство объектов с помощью косинусного расстояния
- Относитесь к первой десятке как к одному и тому же человеку
- Используйте эту информацию об одном и том же человеке + оценку максимального правдоподобия для построения пространственно-временной модели.
В классификаторе изображений мы используем сиамскую сеть LiangZheng здесь. Их исходный код реализован в MATLAB. Я использую Kerasповторяющийсявзял горсть:
Оценку максимального правдоподобия пространственно-временной модели можно найти вздесь
Проницательные читатели должны заметить, что этот классификатор изображений предварительно обучен на других данных, и из-за различного распределения данных в пространстве признаков этот классификатор изображений слишком слаб, для целевого набора данных будет много неверных выборок, что приведет к расхождение между построенной пространственно-временной моделью и реальной пространственно-временной моделью
Видно, что построенная модель несколько отличается от реальной модели, но положение пика все же похоже, и он все же должен быть в определенной степени пригодным для использования, но мы все же надеемся, что построенная модель максимально приближена к реальной модели. насколько это возможно.
Итак, мы начинаемсчитать
- Что делает модель необъективной? это неправильная пара образцов
- Как убрать влияние неправильных пар образцов? Можем ли мы выделить не ту пару образцов? А если нет этикетки?
- (вспышка вдохновения) Разве не тот образец не тот, что я выбрал вслепую? Затем я могу случайным образом выбрать пары выборок и рассчитать случайное дельта-распределение?
- Случайное дельта-распределение удаляется из предполагаемого дельта-распределения, а оставшаяся часть генерируется правильной миграцией пешеходов, поэтому можно получить реальное дельта-распределение?
Итак, мы визуализировали случайное дельта-распределение
Его можно найти,
- отличается от предполагаемой модели и истинной модели
- Есть больше дрожания
Это распределение случайной разницы во времени также показывает определенную тенденцию концентрации, которая фактически отражает распределение выборки по разнице во времени.Например, большинство снимков, сделанных камерой № 1, относятся к определенному периоду времени, а большинство снимков, сделанных камерой № 2 также сделаны в этот период времени, но большинство снимков с камеры 3 были сделаны в другое время.
Учитывая, что частотная карта разницы во времени имеет такой большой джиттер, мы добавили фильтрацию среднего значения при вычислении разницы во времени определенной области и сделали усечение определенной области, включая сброс минимального значения вероятности до минимального значения вероятности, разница во времени Максимальные значения сбрасываются до максимальной разницы во времени.
Далее, как следует отфильтровать неправильную модель из оценочной модели? Как совместить пространственно-временную модель с моделью изображения?
Слияние моделей на основе байесовского вывода
Сначала посмотрите на слияние пространственно-временной модели и модели изображения. У нас есть визуальное сходство Pv и пространственно-временная вероятность Pst. Интуитивная идея состоит в том, что совместная оценка может быть Pv * Pst. Если вы хотите подавить случайную оценку Prandom, вы можете сделать деление, то есть Pv*Pst/Prandom
Глядя на это с этой точки зрения, похоже ли это на формулу условной вероятности? Итак, мы начали выводить (много предупреждений о формуле):
Давайте посмотрим на имеющиеся у нас ресурсы: теперь у нас есть слабый классификатор изображений, который может извлекать два визуальных признака vi, vj для двух изображений, есть две пространственно-временные точки, а пространственные признаки — это два номера камер ci, cj, время функция - это разница во времени Δij между двумя изображениями.Предполагая, что идентификаторы человека, соответствующие двум изображениям, равны Pi и Pj соответственно, наша цель состоит в том, чтобы найти вероятность того, что два изображения принадлежат одному и тому же человеку с учетом этих характеристик.
Pr(Pi=Pj|vi,vj,ci,cj,∆ij) (бумажная формула 6)
Из формулы условной вероятности P(A|B) = P(B|A)*P(A)/P(B) мы можем получить
Pr(Pi=Pj|vi,vj,ci,cj,∆ij)
= Pr(vi,vj,ci,cj,∆ij|Pi=Pj) *Pr(Pi=Pj)/ Pr(vi,vj,ci,cj,∆ij)
Из предположения о независимости пространственно-временного распределения и распределения образов (люди, которые похожи друг на друга, могут не обязательно иметь одинаковые законы движения), мы можем разобрать первый член и получить
= Pr(vi,vj|Pi=Pj)Pr(ci,cj,∆ij|Pi=Pj)Pr(Pi=Pj)/ Pr(vi,vj,ci,cj,∆ij)
Среди них Pr(Pi=Pj) — сложный элемент, попробуем заменить его,
Коммутативный порядок сначала (коммутативный закон умножения)
= Pr(vi,vj|Pi=Pj) * Pr(Pi=Pj)*Pr(ci,cj,∆ij|Pi=Pj) / Pr(vi,vj,ci,cj,∆ij)
По формуле условной вероятности P(A|B)P(B) = P(B|A)Р(А) доступен
= Pr(Pi=Pj|vi,vj) * Pr(vi=vj)*Pr(ci,cj,∆ij|Pi=Pj) / Pr(vi,vj,ci,cj,∆ij)
можно увидеть
- Pr(Pi=Pj|vi,vj) можно понимать как вероятность того, что два изображения будут признаны одним и тем же человеком на основании сходства визуальных признаков.
- Pr(ci,cj,∆ij|Pi=Pj) — вероятность того, что две точки пространства-времени созданы одним и тем же человеком, движущимся
Снова используя предположения о независимости пространственно-временного распределения и распределения изображений, разбейте знаменатель
= Pr(Pi=Pj|vi,vj) * Pr(vi=vj)Pr(ci,cj,∆ij|Pi=Pj) / Pr(vi,vj)P(ci,cj,∆ij)
О Pr(vi=vj),
= Pr(Pi=Pj|vi,vj) * Pr(ci,cj,∆ij|Pi=Pj) /P(ci,cj,∆ij)
это
= визуальное сходство * вероятность того, что один и тот же человек производит этот вид движения/вероятность этого вида движения, состоящего из любых двух пространственно-временных точек
Это формула (7) статьи, которая является нашим исходным предположением: Pv * Pst / Prandom
Кажется, что это очень близко к имеющимся у нас ресурсам, но,
- Нам неизвестно визуальное сходство Pr(Pi=Pj|vi,vj) идеальных двух изображений, только визуальное сходство Pr(Si=Sj|vi,vj) двух изображений, определенное нашим классификатором изображений,
- Мы не можем вычислить истинную вероятность Pr(ci,cj,∆ij|Pi=Pj) того же человека, совершающего это движение, у нас есть только пространственно-временная вероятность Pr(ci,cj,∆ij|Si=Sj), оцененная визуальным классификатор ,
- У нас есть вероятность P(ci,cj,∆ij), что любые две пространственно-временные точки в наборе данных производят это движение
Итак, мы хотим использовать Pr(ci,cj,∆ij|Si=Sj), P(ci,cj,∆ij) для аппроксимации, получаем
= Pr(Si=Sj|vi,vj) * Pr(ci,cj,∆ij|Si=Sj) /P(ci,cj,∆ij)
Когда вы это видите, вы можете приблизительно понять принцип нашего термоядерного синтеза, ведь большинство наших экспериментов также рассчитываются по этой приблизительной формуле.
Что касается реализации, сначала смоделируйте две пространственно-временные модели, рассчитайте сходство изображений, а затем подставьте его в формулу, чтобы получить оценку слияния.мой GitHub
Но возможно ли такое приближение? Давайте проведем анализ ошибок (много выводов, если вам не интересно, вы можете перейти ко второй картинке, которая появляется рядом, это не повлияет на понимание позже, но анализ будет более строгим).
На самом деле ошибка вносится классификатором изображений.Предполагая, что классификатор изображений определяет, что два изображения принадлежат одному и тому же человеку, частота ошибочной оценки равна Ep, а классификатор изображений определяет, что два изображения не являются одним и тем же человеком. частота ошибочных суждений En,
тогда есть,
Ep = Pr(Pi≠Pj|Si=Sj) (бумажная формула 1)
En = Pr(Pi=Pj|Si≠Sj) (бумажная формула 2)
Тогда отношение между Pr(Pi=Pj|vi,vj) и Pr(Si=Sj|vi,vj) можно выразить как:
Pr(Pi=Pj|vi,vj)
= Pr(Pi=Pj|Si=Sj) * Pr(Si=Sj|vi,vj) + Pr(Pi=Pj|Si≠Sj) * Pr(Si≠Sj|vi,vj)
= (1-Ep) * Pr(Si=Sj|vi,vj) + En* (1-Pr(Si=Sj|vi,vj) )
= (1-Ep-En) * Pr(Si=Sj|vi,vj) + En (бумажная формула 8)
Вывод, связь между Pr(ci,cj,∆ij|Pi=Pj) и Pr(ci,cj,∆ij|Si=Sj) (это нельзя вывести напрямую, как визуальное сходство, потому что причинно-следственная связь другая)
Pr(ci,cj,∆ij|Si=Sj)
= Pr(ci,cj,∆ij|Pi=Pj) * (Pr(Pi=Pj)|Si=Sj) + Pr(ci,cj,∆ij|Pi≠Pj) * (Pr(Pi=Pj)| Si≠Sj)
= Pr(ci,cj,∆ij|Pi=Pj) * (1-Ep) + Pr(ci,cj,∆ij|Pi≠Pj) * Ep
также получить
Pr(ci,cj,∆ij|Si≠Sj)
= Pr(ci,cj,∆ij|Pi=Pj) * En + Pr(ci,cj,∆ij|Pi≠Pj) * (1 - Ep)
Одновременно решив уравнение с двумя приведенными выше уравнениями и исключив Pr(ci,cj,∆ij|Si≠Sj), мы можем получить
Pr(ci,cj,∆ij|Pi=Pj)
= (1 - Ep - En)-1(1-En) * Pr(ci,cj,∆ij|Si=Sj) - Ep * Pr(ci,cj,∆ij|Si≠Sj) (уравнение 5 бумага)
Среди них есть новое понятие Pr(ci,cj,∆ij|Si≠Sj), означающее, что когда классификатор изображений считает, что это не один и тот же человек, вероятность появления такой пространственно-временной точки несложно оценить. достижения, а статистическое визуальное сходство - top10. Разница во времени, соответствующая последующим точкам, может использоваться в качестве обратной пространственно-временной вероятностной модели.
Мы подставляем два приближения (уравнение 5 и уравнение 8) в уравнение 7,
может получить
Pr(Pi=Pj | vi, vj, ∆ij, ci, cj)
= (M1 + En/(1 - En - Ep))((1-En)M2 - EpM3)/Pr(∆ij, ci, cj)) (уравнение 9 статьи)
в,
M1 = Pr(Si=Sj|vi,vj), визуальное сходство
M2 = Pr(∆ij,ci,cj|Si=Sj), положительная пространственно-временная вероятностная модель
M3 = Pr(∆ij,ci,cj|Si≠Sj), обратная пространственно-временная вероятностная модель
Знаменатель Pr(∆ij, ci, cj)) представляет собой случайную вероятностную модель
Вышеупомянутые четыре элемента могут быть решены из немаркированного целевого набора данных в сочетании с классификатором изображений, и, когда En = Ep = 0 (что означает, что классификатор изображений полностью точен), эта формула может быть преобразована в приближенное решение:
Pr(Si=Sj|vi,vj) * Pr(ci,cj,∆ij|Si=Sj)/P(ci,cj,∆ij)
На данный момент, как вы думаете, мы можем использовать формулу 9 для расчета оценки слияния? Нет, в формуле 9 еще есть проблема: Ep, En неизвестны!
Если вы хотите серьезно подсчитать Ep и En, целевой набор данных должен иметь метки, а затем мы используем классификатор изображений, чтобы сначала вычислить его, и подсчитать, какие из них неверны, прежде чем мы сможем вычислить Ep и En. Поэтому мы заменяем Ep и En двумя константами α и β соответственно, и аппроксимация всей модели сосредоточена на этих двух константах.
В экспериментах, относящихся к статьям Табл. 1, 2, 3, 4, Рис. 6, α=β=0, а на Рис. 5 установлены другие константы для проверки чувствительности модели к этому приближению
Можно видеть, что, хотя α и β велики, уровень точности будет уменьшаться, но он все еще может поддерживать определенный уровень Когда вы увидите уровень точности классификатора чистых изображений, вы также обнаружите, что уровень точности слияния модель была высокой для чистых классификаторов изображений.
Вы могли заметить, что α+β на рисунке меньше 1, потому что только когда Ep+En
Таким образом, мы получаем мультимодальный метод слияния данных, основанный на выводе условной вероятности, называемый байесовским слиянием.
Взгляните на карту пространственно-временного распределения, полученную методом слияния:
Посмотрите, насколько сильна модель слияния по данным:
The source data set a target image dataset pure fusion spatiotemporal Results Results rank-1rank-5rank-10rank-1rank-5rank-10CUHK01GRID10.7020.2023.8030.9063.7079.10VIPeRGRID9.7017.4021.5028.4065.6080.40Market1501GRID17.8031.2036.8049.6081.4088.70GRIDMarket150120.7235.3942. 9951.1665 .0870.04VIPeRMarket150124.7040.9149.5256.1871.5076.48CUHK01Market150129.3945.4652.5556.5370.2274.64
можно увидеть,
- Прямая передача между наборами данных действительно плоха
- После слияния точность ранга 1 увеличивается в 2-4 раза.
Это показывает, что этот метод синтеза действительно эффективен.
Перенос обучения на основе обучения в рейтинг
Как упоминалось ранее, классификатор изображений слишком слаб, хотя эффект слияния очень хорош (в настоящее время мы как раз думаем о том, стоит ли вкладываться в NIPS таким образом), но если классификатор изображений можно улучшить, эффект сплав теоретически будет лучше.хорошо. И теперь, когда у нас есть мощный классификатор слияния, можем ли мы использовать этот классификатор слияния для маркировки изображений целевого набора данных и, в свою очередь, для обучения классификатора изображений?
Обычная процедура обучения без учителя состоит в том, чтобы разделить пары изображений на пары положительных образцов и пары отрицательных образцов (псевдомаркировка) в соответствии с оценкой слияния, а затем передать их классификатору изображений для обучения.
Мы также попробовали этот метод, но обнаружили, что отрицательных выборок в наборе данных гораздо больше, чем положительных выборок.Классификатор слияния имеет много отрицательных выборок, но очень мало положительных и много неправильных положительных выборок. слишком много неправильных семплов, эффект обучения крайне слабый, и некоторые сложные навыки минирования не сработают.
так что мысчитать,
- Мы не можем указать правильные метки 01, классификатор может узнать только много неправильных меток 01.
- Можем ли мы предоставить некоторые программные метки и позволить классификатору научиться регрессировать оценку между двумя выборками вместо непосредственного изучения меток бинарной классификации?
- Это проблема поиска изображений, можем ли мы использовать некоторые методы обучения в поиске информации для выполнения этой задачи?
Поэтому, естественно, я подумал о том, чтобы научиться ранжировать
Ranking
- Постановка задачи: по заданному объекту найти наиболее релевантные результаты, отсортированные по релевантности.
- Общий метод:
- По баллам: подсчитайте абсолютный балл для каждого результата, а затем отсортируйте по баллу.
- Попарно: подсчитайте, у кого из каждых двух результатов наивысший балл, а затем отсортируйте по этому относительному баллу.
- По списку: перечислить все перестановки и вычислить ту, которая имеет наивысший комплексный балл, в качестве результата сортировки.
Полная оценка часто требует множества сложных условий для расчета, что не обязательно применимо к нашей сцене, поэтому, за исключением списка, точки и пары, можно использовать оценку, которая может быть непосредственно выражена оценкой слияния, парой. мудрый может использовать группу выборок положительного порядка, группу выборок обратного порядка, рассчитываются две оценки и рассчитываются относительные оценки для обучения, что немного похоже на потерю триплетов, поэтому метод парных вычислений используется в эксперимент.
Pair-wise Ranking
- Для выборки xi ее ранговый балл равен oi,
- Для выборки xj ее ранговый балл равен oj,
- Определить oij=oi - oj, если oij>0 означает, что xi имеет более высокий ранг, чем xj,
- Вероятность этого ранжирования и определение Pij = eoij/(1+eoij), что является вероятностью того, что xi ранжируется выше, чем xj.
- Для любой перестановки длины n, если известна вероятность Pi,i+1 n-1 смежных элементов, можно вывести вероятность сортировки любых двух элементов.
- Например, для заданных Pik и Pkj, Pij = Pik * Pkj = eoik+okj/(1 + eoik+okj), где oik=ln(Pik/(1 - Pik))
RankNet: Pair-wise Learning to Rank
RankNet — это метод парного обучения для ранжирования, в котором нейронная сеть используется для изучения отношения отображения между двумя входными выборками (и выборкой запроса) и вероятностью их ранжирования (определенной выше).
конкретно по нашему вопросу
- Заданное изображение запроса A, заданные изображения B и C, которые должны быть сопоставлены
- Используйте нейронную сеть, чтобы предсказать сходство между AB и Sab как абсолютный ранговый балл B, и рассчитайте сходство между AC и Sac как абсолютный ранговый балл C.
конкретная нейронная сетьРеализация КерасаИ визуализируйте это так:
- Входные данные представляют собой три изображения, соответственно, с использованием Resnet52 для извлечения признаков и сглаживания.
- После сглаживания напишите слой Lambda + полносвязный слой, чтобы вычислить геометрическое расстояние вектора признаков с весом и получить score1 и score2.
- Рассчитайте перекрестную энтропийную потерю с помощью score1 и score2, а также реальную оценку (описано ниже).
- Тогда вероятность того, что B имеет более высокий рейтинг, чем C, равна:
Pbc= eobc/(1+ eobc) = eSab- Sac / (1 + eSab- Sac)
- Используйте прогнозируемую вероятность Pbc, чтобы соответствовать реальной вероятности ранжирования, а регрессионная потеря выражается перекрестной энтропией прогнозируемой вероятности и реальной вероятности.
C(obc) = -P'bcln Pbc - (1-P'bc)ln (1 - Pbc)
Реализация сети очень проста, основная проблема заключается в построении выборочных троек.
Transfer Learning to rank
Весь процесс обучения ранжированию показан на рисунке.
Мы используем классификатор слияния для оценки пар изображений в целевом наборе данных, строим тройки и вводим их в RankNet, где Si — граф запроса, Sj — изображение, извлеченное при сходстве слияния с Si top1 — top25, а Sk — это слияние. сходство с Si Картинки, извлеченные из top25 - top50, передаются в RankNet для обучения, чтобы некоторые сверточные слои resnet52 могли полностью изучить визуальные особенности целевой сцены.
Эффект обучения ранжированию
The source data set a target image dataset pure fusion spatiotemporal Results Results rank-1rank-5rank-10rank-1rank-5rank-10CUHK01GRID17.4033.9041.1050.9078.6088.30VIPeRGRID18.5031.4040.5052.7081.7089.20Market1501GRID22.3038.1047.2060.4087.3093.40GRIDMarket150122.3839.2548. 0758.2272 .3376.84VIPeRMarket150125.2341.9850.3359.1773.4978.62CUHK01Market150130.5847.0954.6060.7574.4479.25
По сравнению с эффектом до обучения ранжированию уровень точности повысился, особенно в наборе данных GRID.
Противопоставление контролируемых подходов SOA
С одной стороны, мы применили вышеуказанный алгоритм неконтролируемого набора данных для двух наборов данных, GRID и Market1501, и сравнили их с лучшими текущими методами.С другой стороны, мы также проверили эффект контролируемой версии.Исходный набор данных согласуется с целевым набором данных, таким как предварительное обучение GRID -> время и пространство объединения GRID, эффект будет следующим:
- GRID
MethodRank 1JLML37.5TFusion Неконтролируемый 60.4TFusion Контролируемый 64.1
Поскольку пространственно-временная регулярность в этом наборе данных очень очевидна (правильная разница во времени сосредоточена в небольшом диапазоне), можно отфильтровать большое количество результатов неправильной классификации, поэтому уровень точности превосходит даже все контролируемые методы.
- Market1501
MethodRank 1S-CNN65.88DLCE79.5SVDNet82.3JLML88.8TFusionUnsupervised60.75TFusionSupervised73.13
В наборе данных Market1501 метод без учителя приближается к методу с учителем 2016 года (наш классификатор изображений представляет собой всего лишь ResNet52), а метод с учителем превосходит метод с учителем 2016 года, хотя и не так хорош, как метод с учителем 2017 года, но в сочетании с другими лучшими классификаторами изображений он должен иметь лучшие результаты.
Сравнение неконтролируемых подходов к SOA
Мы запросили код у авторов UMDL и воспроизвели следующие наборы экспериментов по миграции между наборами данных.
MethodSourceTargetRank1UMDLMarket1501GRID3.77UMDLCUHK01GRID3.58UMDLVIPeRGRID3.97UMDLGRIDMarket150130.46UMDLCUHK01Market150129.69UMDLVIPeRMarket150130.34TFusionMarket1501GRID60.4TFusionCUHK01GRID50.9TFusionVIPeRGRID52.7TFusionGRIDMarket150158.22TFusionCUHK01Market150159.17TFusionVIPeRMarket150160.75
Среди них результаты миграции UMDL на Market1501 связаны с результатами Hehefan и Liangzheng из Технологического университета Сиднея.повторяющийсяЭффект аналогичен, поэтому наша репродукция надежна.
Видно, что неуправляемый TFusion полностью давит на UMDL.
Более подробные экспериментальные результаты можно найти в статье.
Множественное итеративное трансферное обучение
Оглядываясь назад на всю архитектуру, мы используем классификатор изображений для оценки пространственно-временной модели для получения модели слияния и, в свою очередь, используем модель слияния для улучшения модели классификатора изображений, и классификатор изображений может продолжать улучшать модель слияния для формирования а闭环
Теоретически, этот цикл с обратной связью во много раз может сделать классификатор изображений бесконечно аппроксимирующим классификатор слияния, чтобы получить очень мощный классификатор изображений в целевой сцене, поэтому мы сделали несколько итераций:
Судя по текущим экспериментальным результатам, первое переносное обучение имеет относительно большое улучшение, а последующее улучшение относительно небольшое.Можно сказать, что это явление имеет быструю сходимость в лучшем случае, но в худшем, хотя классификатор изображений был улучшен, но Нет такого явления, что классификатор изображений улучшился больше, чем классификатор слияния, так что тут нужно что-то копать.
постскриптум
Исследуйте, визуализируйте, находите идеи, находите наборы данных, проводите эксперименты, отлаживайте, настраивайте параметры, пишите документы и напишите CVPR за девять месяцев. Это также первая статья CCF A в нашей лаборатории. Сейчас продолжаем исследования в области Person Reid.Мы строим сеть камер на базе Raspberry Pi, конструируем собственный набор данных и на основе этого будем проводить обнаружение пешеходов, мультимодальное слияние данных, облегченную модель глубины , распределенная совместная работа Серия исследований, таких как терминал, хеширование видео, индексация изображений и т. д., присоединяйтесь ко мне.Github, также добро пожаловать, чтобы продолжать следовать за намиБлог лаборатории
Я смотрел это так долгоGithubНажмите звездочку!