GaitSet: перекрестное распознавание походки с походкой как последовательностью

искусственный интеллект


Эта статья является работой Университета Фудань, опубликованной в AAAI 2019, и сетью с самым высоким уровнем точности CASIA-B на данный момент. Исходный текст вставлен на английском языке.В переводе участвует Google, но в основном он ручной.Комментарии приветствуются,если что-то не так.Некоторые из них добавлены для моего собственного понимания,а не исходного содержания.
Перевод Чжоу Юэюаня

"Резюме"

Как уникальный биометрический признак, который можно распознать на расстоянии, походка имеет широкое применение в профилактике правонарушений, криминалистической идентификации и социальной защите.

Как уникальная биометрическая функция, которая может быть идентифицирована на расстоянии, походка имеет широкий спектр применений в предупреждении преступности, судебно-медицинской идентификации и социальной защите.

Чтобы изобразить походку, существующие методы распознавания походки используют либо шаблон походки, где временную информацию трудно сохранить, либо последовательность походки, которая должна сохранять ненужные последовательные ограничения и, таким образом, теряет гибкость распознавания походки.

Чтобы очертить походку, существующие методы распознавания походки используют шаблоны походки (где временную информацию трудно сохранить) или последовательности походки, которые должны поддерживать ненужные ограничения порядка и, таким образом, терять гибкость распознавания походки.

In this paper we present a novel perspective, where a gait is regarded as a set consisting of independent frames. We propose a new network named GaitSet to learn identity information from the set.

В этой статье мы предлагаем новую точку зрения, в которой походка рассматривается как последовательность (изображений), состоящая из независимых кадров. Мы предлагаем новую сеть под названием GaitSet для изучения идентификационной информации в последовательностях (изображений).

Основанный на заданной перспективе, наш метод невосприимчив к перестановке кадров и может естественным образом объединять кадры из разных видео, снятых в разных условиях, таких как разные углы обзора, разная одежда/условия ношения.

Основанный на перспективах последовательности (изображений), наш метод не зависит от расположения кадров и может естественным образом интегрировать кадры из разных видео, которые были сняты в разных сценариях, например, в разных ракурсах, с разной одеждой/состояниями переноски.

Experiments show that under normal walking conditions, our single-model method achieves an average rank-1 accuracy of 95.0% on the CASIAB gait dataset and an 87.1% accuracy on the OU-MVLP gait dataset.

Эксперименты показывают, что в нормальных условиях ходьбы наш подход с одной моделью обеспечивает в среднем 95,0% точности с одним попаданием в наборе данных походки CASIAB и 87,1% точности в наборе данных походки OU-MVLP.

These results represent new state-of-the-art recognition accuracy.

Эти результаты представляют новый уровень точности распознавания.

В различных сложных сценариях наша модель демонстрирует значительный уровень надежности: она достигает точности 87,2 % и 70,4 % при ходьбе в сумке CASIA-B и в пальто соответственно.

Наша модель демонстрирует замечательную надежность в различных сложных сценариях. Он достигает точности 87,2% и 70,4% для условий ходьбы с CARA-Bunderbag и покрытием соответственно.

These outperform the existing best methods by a large margin.

Они значительно превосходят современные методы.

The method presented can also achieve a satisfactory accuracy with a small number of frames in a test sample, e.g., 82.5% on CASIAB with only 7 frames.

Предлагаемый метод может обеспечить удовлетворительную точность в тестовых выборках с небольшим числом кадров, например, точность 82,5% при использовании всего 7 кадров в CASIAB.

"1. Введение

В отличие от других биометрических данных, таких как лицо, отпечатки пальцев и радужная оболочка, походка является уникальным биометрическим признаком, который может быть распознан на расстоянии без участия субъектов и вмешательства в них, поэтому он имеет широкое применение в предупреждении преступности, судебно-медицинской идентификации и социальной защите.

В отличие от других биометрических данных, таких как лицо, отпечатки пальцев и радужная оболочка, походка является уникальной биометрической характеристикой, которую можно идентифицировать на расстоянии, неинвазивно и без участия субъекта. Поэтому он широко используется в профилактике правонарушений, судебно-медицинской идентификации и социальной защиты.

Однако на распознавание походки влияют внешние факторы, такие как скорость ходьбы субъекта, состояние одежды и переноски, а также точка обзора камеры и частота кадров.

Однако на распознавание походки влияют внешние факторы, такие как скорость ходьбы субъекта, условия ношения и переноски, а также точка обзора камеры и частота кадров.

Существует два основных способа идентификации походки в литературе: рассмотрение походки как изображения и рассмотрение походки как видеопоследовательности.Первая категория объединяет все силуэты походки в одно изображение или шаблон походки для распознавания походки.

В литературе есть два основных способа идентификации походки, а именно походка как изображение и походка как видеопоследовательность. Первый класс сжимает все контуры походки в одно изображение или использует шаблоны походки для распознавания походки. «Первый тип типичного представителя — это типичный представитель GEI. Последний столбец на рисунке ниже — это GEI первых нескольких столбцов изображений, Gait Energy Image».

Простой и удобный в реализации шаблон походки легко теряет временную и мелкозернистую пространственную информацию, в то время как вторая категория извлекает особенности непосредственно из исходных последовательностей силуэтов походки за последние годы.

Шаблон походки прост и легок в реализации, но легко потерять временную и точную пространственную информацию. Разница в том, что в последние годы появилось больше алгоритмов второй категории, которые напрямую извлекают признаки из исходной последовательности контуров походки.

However, these methods are vulnerable to exterior factors. Further, deep neural networks like3D-CNN for extracting sequential information are harder to train than those using a single template like Gait Energy Image.

Однако эти методы чувствительны к внешним факторам. Кроме того, глубокие нейронные сети, такие как 3D-CNN, для извлечения информации о последовательности сложнее обучить, чем глубокие нейронные сети, использующие один шаблон, такой как GEI.

To solve these problems, we present a novel perspective which regards gait as a set of gait silhouettes. As a periodic motion, gait can be represented by a single period.

Чтобы решить эти проблемы, мы предлагаем новую идею, которая рассматривает характеристики походки как набор карт контуров походки. Как периодическое движение походка может быть представлена ​​циклом.

In a silhouette sequence containing one gait period, it was observed that the silhouette in each position has unique appearance, as shown in Fig. 1.

В последовательности контуров, содержащих один цикл походки, контуры в каждом месте имели уникальный внешний вид, как показано на рисунке 1.

Рисунок 1: Слева вверху справа внизу показан профиль полного цикла цели в наборе данных походки CASIA-B.

Даже если эти силуэты перетасованы, нетрудно переставить их в правильном порядке, просто наблюдая за их внешним видом. Таким образом, мы предполагаем, что внешний вид силуэта содержит информацию о его положении. При таком допущении информация о порядке последовательности походки является в этом нет необходимости, и мы можем непосредственно рассматривать походку как набор для извлечения временной информации.

Несмотря на то, что контуры не в порядке, их можно переставить в правильном порядке, только взглянув на их внешний вид. Поэтому мы предполагаем, что внешний вид контура содержит информацию о его местоположении. При таком предположении последовательная информация о последовательности походки не требуется (входные признаки), и мы можем напрямую рассматривать походку как набор (изображения) для извлечения временной информации.

We propose an end-to-end deep learning model called GaitSet whose scheme is shown in Fig. 2.

Мы предлагаем сквозную модель глубокой школы под названием GaitSet, структура которой показана на рисунке 2.

Рисунок 2: Структура GaitSet. «SP» означает объединение наборов. Трапеции представляют блоки свертки и объединения, а трапеции в том же столбце имеют одинаковые параметры, которые представлены прямоугольниками с заглавными буквами. Обратите внимание, что хотя блок в MGP имеет те же параметры, что и блок в основном конвейере, его параметры совместно используются только блоками в основном конвейере, а не блоками в MGP. HPP расшифровывается как Horizontal Pyramid Pooling.

The input of our model is a set of gait silhouettes.

Входными данными для нашей модели является набор изображений контуров походки. (как на картинке 1)

First, a CNN is used to extract frame-level features from each silhouette independently. Second, an operation called Set Pooling is used to aggregate frame-level features into a single set-level feature.

Во-первых, CNN используется для независимого извлечения признаков уровня кадра из каждого контура. Во-вторых, операция Set Pooling используется для агрегирования функций уровня кадра в независимые функции уровня последовательности.

Поскольку эта операция применяется к картам признаков высокого уровня вместо исходных силуэтов, она может сохранять пространственную и временную информацию лучше, чем шаблон походки, что будет подтверждено экспериментом в разделе 4.3.

Поскольку эта операция применяется к функциям высокого уровня (которые становятся функциями высокого уровня после свертки исходного контура), а не к исходному контуру, она сохраняет пространственную и временную информацию лучше, чем шаблоны походки.

(На самом деле, я чувствую, что это предложение немного сложно понять, или, может быть, моя способность понимания ограничена. Автор хотел бы выразить следующее: весь процесс извлекает пространственные особенности каждого кадра изображения, а также извлекает временные особенности всей последовательности.По сравнению с шаблоном походки извлеченные признаки являются более полными, и основное внимание должно быть уделено извлечению признаков каждого кадра при сохранении временных признаков.) Экспериментальная проверка этой части подробно описана в разделе 4.3.

В-третьих, структура, называемая Горизонтальное отображение пирамиды, используется для отображения функции уровня набора в более различимое пространство для получения окончательного представления.

В-третьих, функции уровня последовательности отображаются в более различимом пространстве с использованием структуры, называемой картированием горизонтальной пирамиды (HPM), для получения окончательного представления.

(Вторая половина этого предложения очень загадочна. Слово «различительный» используется так удачно, что делает людей непонятными. Я понимаю, что это свойство уровня последовательности, которое включает в себя свойства времени и пространства, сжато в одно целое. соединение для классификации.)

The superiorities of the proposed method are summarized as follows:

Преимущества этого метода сводятся к следующему:

Flexible

Наша модель довольно гибкая, так как на входные данные нашей модели не накладывается никаких ограничений, кроме размера силуэта.Это означает, что входной набор может содержать любое количество непоследовательных силуэтов, снятых с разных точек зрения и в разных условиях ходьбы. показаны в разделе 4.4

гибкость

Наша модель очень гибкая, потому что нет никаких ограничений на ввод в нашу модель, кроме размера контуров. Это означает, что входная последовательность может содержать любое количество прерывистых контуров с разными условиями ходьбы в разных точках обзора. См. Раздел 4.4 для связанных экспериментов. (Здесь в исходном тексте забыли поставить точку, я их заполнил, хахаха)

Fast

Our model directly learns the representation of gait instead of measuring the similarity between a pair of gait templates or sequences. Thus, the representation of each sample needs to be calculated only once, then the recognition can be completed by calculating the Euclidean distance between representations of different samples.

быстрота

Вместо того, чтобы измерять сходство между парой шаблонов или последовательностей походки, наша модель напрямую изучает представления походок. Следовательно, представление каждой выборки нужно вычислить только один раз, а затем распознавание можно выполнить, вычислив евклидово расстояние между представлениями разных выборок.

Effective

Our model greatly improves the performance on the CASIA-B and the OUMVLP datasets, showing its strong robustness to view and walking condition variations and high generalization ability to large datasets.

срок действия

Наша модель значительно улучшает производительность наборов данных CASIA-B и OUMVLP, демонстрируя высокую устойчивость к изменениям вида и условий ходьбы, а также высокую способность к обобщению больших наборов данных.

"2" родственная работа

In this section, we will give a brief survey on gait recognition and set-based deep learning methods.

В этом разделе мы кратко представляем обзор методов распознавания походки и глубокого обучения на основе последовательностей.

2.1 Распознавание походки

Gait recognition can be grouped into template-based and sequence-based categories.

Распознавание походки можно разделить на основанное на шаблоне и на основе последовательности.

Подходы из первой категории сначала получают человеческие силуэты каждого кадра путем вычитания фона.

Second, they generate a gait template by rendering pixel level operators on the aligned silhouettes.

Third, they extract the representation of the gait by machine learning approaches such as Canonical Correlation Analysis(CCA), Linear Discriminant Analysis (LDA) and deep learning. Fourth, they measure the similarity between pairs of representations by Euclidean distance or some metric learning approaches.

Наконец, они присваивают шаблону метку некоторым классификатором, например, классификатором ближайшего соседа.

Методы первого класса сначала получают человеческий силуэт для каждого кадра путем вычитания фона. На втором этапе выровненные контуры обрабатываются на уровне кадра для создания шаблонов походки. На третьем этапе они извлекли представления о походке с помощью методов машинного обучения, таких как канонический корреляционный анализ (CCA), линейный дискриминантный анализ (LDA) и глубокое обучение. В-четвертых, они измеряют сходство между парами представлений (пара представлений — это входная последовательность изображений и набор последовательностей изображений, уже сохраненных во время обучения) с помощью евклидова расстояния или некоторого метрического метода обучения. Наконец, они присваивают метки шаблонам (обнаруживаемым входным данным) с помощью некоторого классификатора, например, классификатора ближайшего соседа.

Previous works generally divides this pipeline into two parts, template generation and matching.

Предыдущая работа обычно этот процесс делится на две части, генерация шаблона и сопоставление.

The goal of generation is to compress gait information into a single image, e.g., Gait Energy Image (GEI) and Chrono-Gait Image (CGI).

(Шаблон) Цель состоит в том, чтобы сжать информацию о походке в одно изображение, такое как изображение энергии походки (GEI) и изображение синхронизации времени (CGI).

In template matching approaches, View Transformation Model (VTM) learns a projection between different views. (Hu et al. 2013) proposed View-invariant Discriminative Projection (ViDP) to project the templates into a latent space to learn a view-invariance representation.

В методе сопоставления шаблонов модель перевода точки зрения (VTM) изучает проекции между различными представлениями. (Hu et al. 2013) предложили инвариантную к представлению дискриминационную проекцию (ViDP) для проецирования шаблона в скрытое пространство, чтобы изучить представление, не зависящее от представления.

(См. https://www.quora.com/What-is-the-meaning-of-latent-space для скрытого пространства, которое на самом деле является пространством, возможно, нескольких измерений. Объекты одного и того же типа в этом пространстве далеко друг от друга. Ближе для облегчения классификации. Вышеупомянутая ссылка не может быть открыта, смотрите содержание ниже)

Recently, as deep learning performs well on various generation tasks, it has been employed on gait recognition task (Yu et al. 2017a; He et al. 2019; Takemura et al. 2018a; Shiraga et al. 2016; Yu et al. 2017b; Wu et al. 2017).

В последнее время глубокое обучение (широко) используется для задач распознавания походки (чтобы назвать кучу соответствующей литературы) из-за его хорошей производительности в различных генеративных задачах.

Что касается второй категории, подходы на основе видео напрямую принимают последовательность силуэтов в качестве входных данных. В зависимости от способа извлечения временной информации их можно разделить на подходы на основе LSTM (Liao et al. 2017) и подходы на основе 3D CNN ( Вольф, Бабаи и Риголл, 2016 г.; Ву и др., 2017 г.).

Во второй категории методы на основе видео напрямую используют последовательность контуров в качестве входных данных. В зависимости от способа извлечения временной информации их можно разделить на методы на основе LSTM и методы на основе 3D CNN.

The advantages of these approaches are that 1) focusing on each silhouette, they can obtain more comprehensive spatial information.2)They can gather more temporal information because specialized structures are utilized to extract sequential information. However, The price to pay for these advantages is high computational cost.

Преимущества этих методов: 1) Фокус на каждом контуре для получения более полной пространственной информации 2) Можно собрать больше временной информации, поскольку для извлечения последовательной информации используются специализированные структуры. Однако расплатой за эти преимущества являются высокие вычислительные затраты.

2.2 неупорядоченная последовательность глубокого обучения

Большинство работ в области глубокого обучения сосредоточены на регулярных входных представлениях, таких как последовательности и изображения. Концепция неупорядоченного набора впервые введена в компьютерное зрение (Charles et al. 2017) (PointNet) для решения задач облака точек. Используя неупорядоченный набор, PointNet может избежать Шум и расширение данных, вызванные квантованием, и получение высокой производительности.С тех пор методы на основе наборов широко используются в области облаков точек (Wangetal. 2018c; Zhou and Tuzel 2018; Qi et al. 2017).

Большая часть работы по глубокому обучению посвящена обычным входным представлениям, таким как последовательности и изображения. Концепция неупорядоченных наборов была впервые введена в компьютерное зрение (Charles et al. 2017) (PointNet) для решения задач облака точек. PointNet использует неупорядоченные последовательности, что позволяет избежать шума и расширения данных, вызванного квантованием, и повысить производительность. В результате методы, основанные на последовательностях, широко используются в области облаков точек (см. соответствующую литературу).

В последнее время такие методы внедряются в области компьютерного зрения, как рекомендации по содержанию (Hamilton, Ying, and Leskovec, 2017) и субтитры к изображениям (Krause et al., 2017) для объединения функций в виде набора (Zaheer et al., 2017). формализовал задачи глубокого обучения, определенные на наборах, и характеризует инвариантные функции перестановки.Насколько нам известно, он до сих пор не использовался в области распознавания походки.

Недавно эти методы были введены в область компьютерного зрения, такие как рекомендации по содержанию и подписи к изображениям, для агрегирования признаков последовательности. Захир и др. Далее дают описания последовательностей и инвариантные функции перестановок в задачах глубокого обучения. Насколько нам известно, он еще не использовался в области распознавания походки.

«3» походка

In this section, we describe our method for learning discriminative information from a set of gait silhouettes. The overall pipeline is illustrated in Fig. 2.

В этом разделе мы вводим методы для изучения различительной информации из набора контуров походки. Весь процесс показан на рисунке 2.

3.1 Постановка задачи

We begin with formulating our concept of regarding gait as a set.

Во-первых, рассмотрим походку как набор последовательностей.

Учитывая набор данных N людей с идентичностями yi,i ∈ 1,2,...,N, мы предполагаем, что силуэты походки определенного человека подчиняются распределению Pi, которое связано только с его идентичностью.

Учитывая набор данных, в наборе данных всего N человек, и каждый человек представлен yi (существует так много представлений y1, y2, ... yN). Предполагая, что распределение профиля походки человека Pi связано только с идентификатором человека (то есть профиль человека и этот человек находятся во взаимно однозначном соответствии, в этом нет ошибки, на самом деле это достижимая основа для распознавания походки, что то есть походка каждого человека уникальна).

Поэтому все силуэты в одной или нескольких последовательностях человека можно рассматривать как набор из n силуэтов Xi = {x(ij) | j = 1,2,...,n}, где x(ij) ∼Pi. (Для облегчения ввода в этой статье для представления используется x(ij)).

Следовательно, в одной или нескольких последовательностях все контуры можно рассматривать как Xi = {x(ij) | j = 1,2,...,n}, где x(ij) ∼Pi.

Вставьте пояснение или сводку (в качестве примера возьмем набор данных CASIC-B):

В наборе данных N = 124 человека, и каждый человек представлен yi. Например, если я правильно помню, видео человека с ID = 109 заканчивается, даже не появляясь на видео. В этой статье это сказал, что видео y109 неполное.

Как выбрать контур с закрытыми глазами во всех наборах данных, чтобы представить это? Если в последовательности выбранной контурной карты 20 кадров, а выбранная контурная карта является 3-м кадром в последовательности, то метод представления - x(20 3), а ее последовательность представлена ​​как X20.

Under this assumption, we tackle the gait recognition task through 3 steps, formulated as:

В этом предположении мы решаем задачу распознавания походки в 3 шага, выраженную следующим образом:

where F is a convolutional network aims to extract framelevel features from each gait silhouette.

где F — сверточная сеть, предназначенная для извлечения признаков уровня кадра из каждого контура походки.

The function G is a permutation invariant function used to map a set of framelevel feature to a set-level feature (Zaheer et al. 2017). It is implemented by an operation called Set Pooling (SP) which will be introduced in Sec. 3.2.

Функция G является инвариантной к перестановке функцией для отображения набора признаков уровня кадра в признаки уровня последовательности. Эта функция реализована с помощью Set Pooling (SP), подробности представлены в разделе 3.2.

The function H is used to learn the discriminative representation of Pi from the set-level feature. This function is implemented by a structure called Horizontal Pyramid Mapping (HMP) which will be discussed in Sec. 3.3.

Функция H используется для изучения отличительных представлений Pi из функций уровня последовательности. (то есть, классифицируя особенности уровня последовательности, соответствующие каждому человеку) Эта функция реализована через структуру, называемую Отображением Горизонтальной Пирамиды (исходный текст HPM здесь должен быть неправильным), которая будет представлена ​​в Разделе 3.3.

The input Xi is a tensor with four dimensions, i.e. set dimension, image channel dimension, image hight dimension, and image width dimension.

Вход Xi представляет собой тензор с четырьмя измерениями, а именно размер последовательности, размер канала изображения, размер изображения по высоте и размер по ширине изображения. tensor.shape=(n кадров, 2 канала, 64, 64)

3.2 Set Pooling

Цель объединения наборов (SP) состоит в том, чтобы агрегировать информацию о походке элементов в наборе, сформулированную как z = G(V), где z обозначает функцию уровня набора, а V = {vj|j = 1,2,.. .,n} обозначает функции на уровне кадра (vj обозначает)

Цель объединения наборов (SP) состоит в том, чтобы собрать информацию о походке всей последовательности, которая формулируется как z = G(V), где z представляет признаки уровня последовательности, V = {vj|j = 1,2,. ..,n } представляет функции уровня кадра.

There are two constraints in this operation.

Здесь есть два ограничения.

First, to take set as an input, it should be a permutation invariant function which is formulated as:

Во-первых, принимая последовательность в качестве входных данных, она должна быть инвариантной к перестановке функцией, выражение которой:

где π — любая перестановка и комбинация.

Во-вторых, поскольку в реальном сценарии количество силуэтов походки человека может быть произвольным, функция G должна иметь возможность принимать множество произвольной мощности.

Во-вторых, поскольку в реальных сценариях количество контуров походки человека может быть произвольным, функция G должна иметь возможность вводить последовательность произвольной мощности. (То есть эта последовательность может быть длинной или короткой, как можно больше кадров, что является большим преимуществом продвижения GaitSet)

Далее мы опишем несколько реализаций G. В ходе экспериментов будет показано, что, хотя разные реализации SP действительно оказывают некоторое влияние на производительность, они не сильно различаются, и все они значительно превосходят методы, основанные на GEI.

Ниже мы приводим несколько примеров функции G. В экспериментах будет показано, что, хотя разные экземпляры SP действительно влияют на производительность, они не сильно различаются, и все они значительно превосходят методы, основанные на GEI.

Статистические функции

To meet the requirement of invariant constraint in Equ. 2, a natural choice of SP is to apply statistical functions on the set dimension. Considering the representativeness and the computational cost, we studied three statistical functions: max(·), mean(·) and median(·). The comparison will be shown in Sec. 4.3.

Естественным выбором для SP является применение статистической функции к измерению последовательности с учетом требования инвариантного ограничения в уравнении 2. С учетом типичности и вычислительных затрат исследуются три статистические функции: max(), mean() и median(). Сравнение будет показано в разделе 4.3.

Совместная функция

We also studied two ways to join 3 statistical functions mentioned above:

Мы также рассмотрели два случая, когда указанные выше три статистические функции работают вместе:

Среди них CAT представляет собой соединение в измерении канала, 1_1C представляет собой сверточный слой 1 × 1, а Max, среднее значение, а средние значения применяются в измерении последовательности. EQO.4 - это усиленная версия EQ3. Дополнительный слой сверкального уровня 1 × 1 может изучать подходящие веса для объединения информации, извлеченной различными статистическими функциями.

Механизм внимания внимание

В этой части исходного текста очень часто встречается слово "уточнить", я его, наверное, понимаю, но понятия не имею, как перевести это слово.

Since visual attention was successfully applied in lots of tasks, we use it to improve the performance of SP.

Поскольку зрительное внимание успешно применялось к большому количеству задач, мы используем его для повышения производительности SP.

Его структура показана на рис. 3. Основная идея состоит в том, чтобы использовать глобальную информацию для изучения поэлементной карты внимания для каждой карты объектов на уровне кадра, чтобы уточнить ее.

Его структура показана на рисунке 3. Основная идея состоит в том, чтобы использовать глобальную информацию для изучения карты внимания к элементам каждой карты объектов на уровне кадра, чтобы получить более ценную информацию.

Рисунок 3. Структура применяемого механизма внимания Set Pooling (SP). 1_1C и cat представляют сверточные слои и соединения 1×1 соответственно. И умножение, и сложение выполняются поточечно.

Глобальная информация сначала собирается статистическими функциями слева. Затем она подается в сверточный слой 1 × 1 вместе с исходной картой объектов для расчета внимания для уточнения. Окончательный признак уровня набора z будет извлечен с использованием MAX на наборе уточненных карт признаков на уровне кадра Остаточная структура может ускорить и стабилизировать конвергенцию.

Глобальная информация сначала собирается статистическими функциями слева (вверху). Затем он передается в сверточный слой 1 × 1 вместе с исходной картой объектов, чтобы привлечь внимание к уточнению информации об объектах. Окончательные функции уровня набора z извлекаются с помощью MAX на наборе карт объектов уровня набора кадров. Окончательная функция уровня последовательности z будет применена к измерению последовательности с помощью MAX. Остаточные структуры могут ускорить и стабилизировать конвергенцию.

3.3 Horizontal Pyramid Mapping

В литературе разбиение карты признаков на полосы обычно используется в задаче повторной идентификации человека.Изображения обрезаются и изменяются до одинакового размера в соответствии с размером пешехода, тогда как отличительные части варьируются от изображения к изображению.

В литературе способ сегментации карт признаков на полосы часто используется для задач повторной идентификации человека. Обрежьте изображение в соответствии с размером пешехода и измените его размер до одинакового размера, но отличительная часть по-прежнему варьируется от изображения к изображению.

(Fu et al. 2018) proposed Horizontal Pyramid Pooling (HPP) to deal with it. HPP has 4 scales and thus can help the deep network focus on features with different sizes togather both local and global information. We improve HPP to make it adapt better for gait recognition task.

(Fu et al. 2018) предложили объединение в горизонтальную пирамиду (HPP) для решения вышеуказанных проблем. HPP имеет 4 уровня, поэтому он может помочь глубоким сетям одновременно извлекать локальные и глобальные функции. Мы улучшили HPP, чтобы сделать его более подходящим для задач распознавания походки.

Instead of applying a 1×1 convolutional layer after the pooling, we use independent fully connect layers (FC) for each pooled feature to map it into the discriminative space, as shown in Fig. 4. We call it Horizontal Pyramid Mapping (HPM).

Как показано на рисунке 4, вместо применения сверточного слоя 1 × 1 после объединения мы используем независимый полносвязный слой (FC) для каждого объединенного объекта, чтобы сопоставить его с дискриминационным пространством. Мы называем такую ​​операцию картированием горизонтальной пирамиды (HPM).

Рисунок 4 Структурная схема HPM

В частности, HPM имеет масштабы S. В масштабе s ∈ 1,2,...,S карта признаков, извлеченная SP, разбивается на полосы по измерению высоты, т. е. полосы в целом.

В частности, HPM имеет масштабы S. На Rescale S ∈ 1,2, ..., S, карты функций, извлеченные SP, делятся на полоски в размере высоты, то есть общие полосы.

(Например, если S=3, то характеристика человека делится на 3 шкалы по вертикали, как показано на рисунке ниже, = 4, а столбцы всех шкал складываются вместе, чтобы получить в сумме 1+2+ 4=7= )

Затем к трехмерным полосам применяется глобальный пул для получения одномерных признаков Для полосы zs,t, где t ∈ 1,2,..., стоит индекс полосы в шкале, формулируется глобальный пул как f's,t = maxpool(zs,t) + avgpool(zs,t), где maxpool и avgpool обозначают Global Max Pooling и Global Average Pooling соответственно. Обратите внимание, что функции maxpool и avgpool используются одновременно, поскольку они превосходят применение кто-то из них один.

Затем используется глобальный пул, чтобы превратить 3D-полосы в 1D-объекты. Для бара zs,t, t ∈ 1,2,..., представляет собой индекс шкалы s bar, формула глобального объединения: f's,t = maxpool(zs,t) + avgpool(zs,t), где maxpool и avgpool представляют глобальный максимальный пул и глобальный средний пул соответственно. Примечание. Используйте одновременно maxpool и avgpool, потому что использование обоих лучше, чем использование только одного из них.

Последним шагом является использование FC для сопоставления признаков f 'в дискриминативном пространстве. Поскольку полосы в разных масштабах отображают признаки разных рецептивных полей, а разные полосы в каждом масштабе отображают признаки разных пространственных положений, естественно использовать независимые FC. , как показано на рис. 4.

Последним шагом является сопоставление функции f' с дискриминативным пространством с использованием FC (полное соединение). Поскольку разные столбцы описывают разные рецептивные поля в разных масштабах, а разные столбцы характеризуют разные пространственные положения в каждом масштабе, как показано на рисунке 4, естественно думать об использовании независимых FC.

3.4 Multilayer Global Pipeline

Различные слои сверточной сети имеют разные рецептивные поля. Чем глубже слой, тем больше будет рецептивное поле. Таким образом, пиксели в картах признаков мелкого слоя фокусируются на локальной и мелкозернистой информации, а пиксели в более глубоком слое фокусируются на на более глобальной и грубой информации.

Сверточные сети с разными слоями имеют разные рецептивные поля. Чем глубже слой, тем больше рецептивное поле. Таким образом, в поверхностных функциях больше внимания уделяется мелкозернистости, в то время как в глубоких функциях содержится более глобальная крупнозернистая информация.

The set-level features extracted by applying SP on different layers have analogical property. As shown in the main pipeline of Fig. 2, there is only one SP on the last layer of the convolutional network. To collect various-level set information, Multilayer Global Pipeline (MGP) is proposed. It has a similar structure with the convolutional network in the main pipeline and the set-level features extracted in different layers are added to MGP.

Функции уровня последовательности, извлеченные с помощью SP, имеют схожие свойства на разных уровнях. Как показано в основном процессе на рисунке 2, в конце сверточной сети есть только один SP. Многослойный глобальный конвейер (MGP) предлагается для сбора различных уровней информации о последовательностях.

Окончательная карта объектов, сгенерированная MGP, также будет преобразована в объекты HPM.Обратите внимание, что HPM после MGP не использует общие параметры с HPM после основного конвейера.

Окончательные элементы, сгенерированные MGP, также делятся на полосовые элементы с помощью HPM. Примечание: HPM, стоящий за MGP, не будет делиться параметрами с HPM, стоящим за основным процессом.

3.5 Обучение и тестирование

функция потерь при обучении

As aforementioned, the output of the network is features with dimension d. The corresponding features among different samples will be used to compute the loss.

Выход, как описано выше, характеризуется тем, что сеть имеет размерность d. Для расчета потерь будут использоваться соответствующие функции различных образцов.

In this paper, Batch All (BA+) triplet loss is employed to train the network (Hermans, Beyer, and Leibe 2017).

В этой статье обучающая сеть использует BATCH ALL (BA +) тройные потери. (BA + тройная потеря В пункте 6 SEC.2 в статье «В защиту тройной потери для повторной идентификации личности».)

A batch with size of p×k is sampled from the training set where p denotes the number of persons and k denotes the number of training samples each person has in the batch.

Возьмите партию размером p*k из обучающей выборки, где p — количество людей, а k — каждый человек, делающий k снимков.

Note that although the experiment shows that our model performs well when it is fed with the set composed by silhouettes gathered from arbitrary sequences, a sample used for training is actually composed by silhouettes sampled in one sequence.

Примечание. Хотя наша модель хорошо работает при тестировании с произвольной последовательностью контуров, на самом деле при обучении она обучается на последовательности контуров.

(Смысл этого предложения, как я понимаю, означает: На этапе тестирования некоторые контуры в любой последовательности человека можно смешивать и вводить, но во время обучения каждый человек вводит только некоторые контуры в одной последовательности за раз)

контрольная работа

Учитывая запрос Q, цель состоит в том, чтобы получить все наборы с одинаковым идентификатором в наборе галереи G. Обозначим образец в G как g. Q сначала помещается в сеть GaitSet для создания многомасштабных функций, после чего все эти функции объединяются в окончательные представления Fq, как показано на рисунке 2. Тот же процесс применяется к каждому g, чтобы получить Fg. Наконец, Fq сравнивается с каждым Fg с использованием евклидова расстояния для расчета точности распознавания ранга 1.

Учитывая последовательность Q, которую нужно проверить, цель состоит в том, чтобы пройти все последовательности в последовательности изображений G, чтобы найти тот же идентификатор, что и заданный. Пусть выборка в G будет g. Сначала Q вводится в сеть GaitSet для создания многомасштабных функций, а затем эти функции объединяются для формирования окончательного представления Fq, как показано на рисунке 2. Каждый образец g проходит один и тот же процесс, то есть он вводится в сеть Gait Set и подключается для генерации Fg. Наконец, Fq и каждый Fg вычисляют евклидово расстояние, чтобы судить о точности распознавания попадания.

«4» эксперимент

Наши эмпирические эксперименты в основном состоят из трех частей.В первой части GaitSet сравнивается с другими современными методами на двух общедоступных наборах данных о походке: CASIA-B (Yu, Tan, and Tan, 2006) и OU-MVLP (Takemura et al. 2018b). Вторая часть — это эксперименты по абляции, проведенные на CASIA-B. В третьей части мы исследовали практичность GaitSet в трех аспектах: производительность на ограниченных силуэтах, множественные виды и множественные условия ходьбы.

Наше экспериментальное внимание состоит из 3 частей. Первая часть состоит в сравнении производительности GaitSet и других лучших алгоритмов на двух общедоступных наборах данных CASIA-B и OU-MVLP. Вторая часть представляет собой эксперимент по абляции на CASIA-B (аналогично контрольным переменным). Раздел III исследует практичность GaitSet с трех аспектов: производительность при ограниченных контурах, производительность в условиях множественного обзора и многоходовки.

4.1 Набор данных и детали обучения

CASIA-B

Набор данных CASIA-B (Ю, Тан и Тан, 2006 г.) – это популярный набор данных о походке. Он содержит 124 субъекта (обозначенных цифрами 001–124), 3 условия ходьбы и 11 представлений (0°, 18°,..., 180°). ) Условие ходьбы включает нормальное (NM) (6 последовательностей на субъекта), ходьбу с сумкой (BG) (2 последовательности на субъекта) и ношение пальто или куртки (CL) (2 последовательности на субъекта). А именно, у каждого субъекта есть 11 ×(6+2+2) = 110 последовательностей.

Набор данных CASIA-B является популярным набором данных о походке. Содержит 124 объекта (обозначены номерами 001-124), 3 состояния ходьбы и 11 углов (0°, 18°, ..., 180°). Ходовой статус включал обычный (NM) (6 групп на человека), рюкзак (GB) (2 группы на человека) и куртку или куртку (CL) (2 группы на человека). То есть у каждого человека есть 11×(6+2+2) = 110 последовательностей.

Поскольку нет официального разделения обучающих и тестовых наборов этого набора данных, мы проводим эксперименты с тремя настройками, которые популярны в современной литературе, Мы называем эти три настройки обучением с малой выборкой (ST), обучением со средней выборкой (MT) и Обучение с большой выборкой (LT). В ST первые 24 испытуемых (обозначенные цифрами 001-024) используются для обучения, а остальные 100 испытуемых оставляются для тестирования. В MT первые 62 испытуемых используются для обучения, а остальные Для тестирования оставляются 62 предмета, в LT первые 74 предмета используются для обучения, а остальные 50 предметов оставляются для испытания.

Поскольку нет официально предписанной части набора данных для обучения и тестирования, мы проводим эксперименты с 3 методами распределения, популярными в современной литературе. Мы называем эти три метода распределения как обучение на малых выборках (ST), обучение на средних выборках (MT) и обучение на больших выборках (LT). ST — это первые 24 человека в качестве обучающей выборки, а остальные 100 человек — в качестве проверочной выборки. MT — это первые 62 человека в качестве обучающей выборки, а остальные 62 человека — в качестве проверочной выборки. LT — это первые 74 человека в качестве обучающей выборки, а оставшиеся последние 50 человек — в качестве проверочной выборки.

В тестовых наборах всех трех настроек первые 4 последовательности состояния ЯМ (№ 1-4 ЯМ) хранятся в галерее, а остальные 6 последовательностей разделены на 3 подмножества зондов, т.е. подмножества ЯМ, содержащие ЯМ № 5-6. , подмножества BG, содержащие BG #1-2, и подмножества CL, содержащие CL #1-2.

В тестовом наборе для всех трех настроек первые 4 последовательности состояния ЯМ (ЯМ № 1-4) были сохранены в галерее, а оставшиеся 6 последовательностей были разделены на 3 подпоследовательности зонда, т. Е. ЯМ, содержащие ЯМ № 5-6, BG#1-2, CL подпоследовательность CL#1-2.

OU-MVLP

Набор данных OU-MVLP (Takemura et al., 2018b) на сегодняшний день является крупнейшим в мире общедоступным набором данных о походке. ,270◦) на испытуемого и 2 последовательности (#00-01) на просмотр.Последовательности разделены на обучающую и тестовую выборки по испытуемым (5153 испытуемых для обучения и 5154 испытуемых для проверки).В тестовой выборке последовательности с индексом # 01 хранятся в галерее, а те, что с индексом #00, используются в качестве зондов.

Набор данных OU-MVLP на сегодняшний день является крупнейшим общедоступным набором данных о походке в мире. В нем 10307 человек, у каждого по 14 ракурсов и по 2 последовательности на ракурс. Все последовательности были разделены на обучающую и проверочную выборки (5153 человека в обучающей выборке и 5154 особи в тестовой выборке). В тестовом наборе последовательность № 01 была классифицирована как галерея, а последовательность № 00 использовалась как зонд.

подробности обучения

In all the experiments, the input is a set of aligned silhouettes in size of 64 × 44. The silhouettes are directly provided by the datasets and are aligned based on methods in (Takemura et al. 2018b). The set cardinality in the training is set to be 30. Adam is chosen as an optimizer (Kingma and Ba 2015). The number of scales S in HPM is set as 5. The margin in BA+ triplet loss is set as 0.2. The models are trained with 8 NVIDIA 1080TI GPUs. 1)

Во всех экспериментах вход представляет собой серию выровненных контуров 64×44. Контуры предоставляются непосредственно набором данных, а выравнивание основано на методе Takemure. В обучающем наборе используется 30 изображений из каждой последовательности каждого человека. Оптимизатор — это оптимизатор Адама. Шкала S=5 для видов HPM. Запас тройных потерь BA+ устанавливается равным 0,2. Модель обучена на 8 графических процессорах NVIDIA 1080TI.

1) В CASIA-B мини-пакет составляется способом, описанным в разделе 3.5, с p = 8 и k = 16. Мы устанавливаем количество каналов в C1 и C2 равным 32, в C3 и C4 равным 64 и в C5 и C6 как 128. При этом параметре средняя вычислительная сложность нашей модели составляет 8,6 GFLOPS. Скорость обучения установлена ​​​​на уровне 1e - 4. Для ST мы обучаем нашу модель для 50 000 итераций. Для MT мы обучаем ее для 60 000 итераций, для LT мы обучаем его для 80 000 итераций.

1) В CASIA-B мини-пакет состоит из двух частей, p=8 и k=16, которые были введены в разделе 3.5 выше. Установите количество каналов для C1 и C2 на 32, количество каналов для C3 и C4 на 64 и количество каналов на C5 и C6 на 128. С этой настройкой средняя вычислительная сложность нашей модели составляет 8,6 гигафлоп. Скорость обучения составляет 1e-4. Во время обучения ST модель обучается на 50 000 раундов, MT на 60 000 раундов и LT на 80 000 раундов.

2) В OU-MVLP, поскольку он содержит в 20 раз больше последовательностей, чем CASIA-B, мы используем сверточные слои с большим количеством каналов (C1=C2=64,C3=C4=128,C5=C6=256) и обучаем его с большими размер пакета (p = 32,k = 16).Скорость обучения составляет 1e-4 в первых 150 000 итераций, а затем изменяется на 1e-5 для остальных 100 000 итераций.

2) OU-MVLP имеет в 20 раз больше последовательностей, чем CASIA-B, поэтому мы используем более глубокие сверточные слои (C1 = C2 = 64, C3 = C4 = 128, C5 = C6 = 256) и размер обучающей партии больше (p = 32, к = 16). Скорость обучения составляет 1e-4 для первых 150 000 эпох и снижается до 1e-5 для последних 100 000 эпох.

4.2. Основные результаты

CASIA-B

В таблице 1 показано сравнение между современными методами 1 и нашим GaitSet.За исключением нашего, другие результаты взяты непосредственно из их оригинальных работ.Все результаты усреднены по 11 просмотрам галереи, идентичные изображения исключены. Например, точность изображения зонда 36◦ усредняется по 10 изображениям галереи, исключая изображение галереи 36◦.

Tab.1 показывает сравнение между набором походки и верхним алгоритмом. Другие данные, кроме Gaitset, указаны в соответствующих статьях. Все результаты получены в 11 углах обзора и не включают одну и ту же перспективу. Например, правильная скорость зонда 36° — это среднее значение 10 ракурсов, отличных от 36°.

Интересную закономерность между видами и точностью можно наблюдать в Таблице 1. Помимо 0◦ и 180◦, точность 90◦ является локальным минимальным значением, она всегда хуже, чем у 72◦ или 108◦.

Из таблицы 1 видно, что существует интересная связь между перспективой и точностью. За исключением 0° и 180°, точность 90° является локальным минимумом. 90° всегда хуже, чем 72° или 108°.

Возможная причина заключается в том, что информация о походке содержит не только те, которые параллельны направлению ходьбы, такие как шаг, который можно наблюдать наиболее четко под углом 90°, но также и те, которые вертикальны направлению ходьбы, такие как раскачивание тела или рук влево-вправо, которые можно наблюдать. наиболее отчетливо при 0◦ или 180◦ Таким образом, как параллельная, так и вертикальная перспективы теряют часть информации о походке, в то время как такие виды, как 36◦ или 144◦, могут получить большую ее часть.

Вероятная причина заключается в том, что информация о походке содержит не только информацию о шаге, параллельном направлению ходьбы, например шаг, который наиболее отчетливо виден под углом 90°, но и информацию о походке, перпендикулярной направлению ходьбы, которую можно наблюдать. качание туловища или руки в сторону наиболее выражено при 0° или 180°. Таким образом, как параллельные углы обзора (90°), так и вертикальные углы обзора (0° и 180°) теряют часть информации о походке, в то время как виды, такие как 36° или 144°, получают большую часть информации.

Small-Sample Training (ST)

Our method achieves a high performance even with only 24 subjects in the training set and exceed the best performance reported so far (Wuetal. 2017) over 10 percent on the views they reported. There are mainly two reasons.

Наш метод по-прежнему достигает наилучшей производительности среди всех алгоритмов в тренировочном наборе только с 24 целями, что превышает предыдущее лучшее значение на 10% по двум основным причинам:

1) As our model regards the input as a set, images used to train the convolution network in the main pipeline are dozens of times more than those models based on gait templates. Taking a mini-batch for an example, our model is fed with 30×128 = 3840 silhouettes while under the same batch size models using gait templates can only get 128 templates.

1) Поскольку наша модель обрабатывает входные данные как набор изображений, для обучения сверточных сетей в основном конвейере используется в десятки раз больше изображений, чем моделей на основе шаблонов походки. Взяв в качестве примера мини-пакет, наша модель вводит 30 × 128 = 3840 контуров, в то время как модель класса шаблонов походки с тем же размером пакета может получить только 128 шаблонов.

2)Since the sample sets used in training phase are composed by frames selected randomly from the sequence, each sequence in the training set can generate multiple different sets. Thus any units related to set feature learning like MGP and HPM can also be trained well.

2) Поскольку последовательность образца, используемая на этапе подготовки, состоит из кадров, случайно выбранных из последовательности, каждая последовательность в наборе тренировок может генерировать несколько различных наборов. Следовательно, любая единица, связанная с последовательным наличием функций, таких как MGP и HPM, также может быть хорошо обучена.

Medium-Sample Training (MT) & Large-Sample Training (LT)

Таблица 1 показывает, что наша модель дает очень хорошие результаты на подмножестве NM, особенно на LT, где результаты всех видов, кроме 180◦, превышают 90% На подмножествах BG и CL, хотя точность некоторых видов, таких как 0◦ и 180◦ ◦ по-прежнему невысоки, средние значения точности нашей модели превышают точность других моделей не менее чем на 18,8%.

Табл.1 показывает, что наша модель дает очень хорошие результаты на подпоследовательности NM, особенно на LT, где результаты превышают 90% для всех видов, кроме 180°. На подпоследовательностях BG и CL, хотя точность некоторых видов, таких как 0° и 180°, все еще невысока, средняя точность нашей модели превышает точность других моделей как минимум на 18,8%.

OU-MVLP

Наши результаты показаны в таблице 3. Поскольку в некоторых предыдущих работах эксперименты не проводились на всех 14 ракурсах, мы приводим наши результаты на двух типах наборов галерей, т. е. на всех 14 ракурсах и 4 типичных ракурсах (0◦, 30◦60◦90 ◦). Все результаты усредняются по представлениям галереи, и идентичные представления исключаются. Результаты показывают, что наши методы могут хорошо обобщать набор данных с таким большим масштабом и широким разбросом представлений. Кроме того, поскольку представление для каждой выборки требуется только Чтобы быть рассчитанным один раз, наша модель может выполнить тест (содержащий 133780 последовательностей) всего за 7 минут с 8 графическими процессорами NVIDIA 1080TI. Следует отметить, что, поскольку некоторые испытуемые пропускают несколько последовательностей походки, и мы не удаляли их из зонда, максимальное точность ранга 1 не может достигать 100%.Если мы игнорируем случаи, которые не имеют соответствующих образцов в галерее, средняя точность ранга 1 всех просмотров зонда составляет 93,3%, а не 87,1%.

Tab.3 показывает наши результаты. Поскольку предыдущая работа не охватывала эксперименты со всеми 14 точками обзора, мы представляем результаты для двух последовательностей галерей, а именно 14 точек обзора и 4 типичных точек обзора (0°, 30°60°90°). Все результаты усреднены по всем углам обзора и не включают одинаковые углы обзора. Результаты показывают, что наш метод по-прежнему обладает сильной способностью к обобщению такого крупномасштабного набора данных с несколькими углами. Кроме того, поскольку выражение для каждого образца необходимо вычислить только один раз, для тестирования модели (содержащей 133780 последовательностей) с 8 графическими процессорами NVIDIA 1080TI требуется всего 7 минут. Стоит отметить, что поскольку некоторые мишени пропускали несколько последовательностей походки и мы не удаляли их из зондов, максимальная частота попаданий не могла достигать 100%. Если упомянутые выше проблемные образцы будут проигнорированы, вероятность одного совпадения увеличится с 87,1% до 93,3%.

4.3 Эксперименты по абляции

Tab. 2 shows the thorough results of ablation experiments. The effectiveness of every innovation in Sec. 3 is studied.

В табл.2 показаны все результаты эксперимента по абляции. Проверяется обоснованность каждого новшества в SEC.3.

Set VS. GEI

Первые две строки таблицы 2 показывают эффективность рассмотрения походки как набора.При полностью идентичных сетях результат использования набора превышает результат использования GEI более чем на 10 % для подмножества NM и более чем на 25 % для подмножества CL. Единственная разница заключается в том, что в эксперименте с GEI силуэты походки усредняются в одном GEI перед тем, как они будут переданы в сеть.

Первые две строки Таблицы 2 показывают эффективность походки как последовательности. Для той же самой сети использование последовательностей вместо GEI может улучшить распознавание подпоследовательностей NM на 10% и CL на 25%. Единственная разница между первыми двумя линиями экспериментов заключается в том, что в эксперименте GEI контуры походки объединяются в один GEI в соответствии с едиными весами перед подачей в сеть.

В основном есть две причины для этого феноменального улучшения: 1) наша SP извлекает функцию уровня набора на основе карты функций высокого уровня, где временная информация может быть хорошо сохранена, а пространственная информация была в достаточной степени обработана. 2) Как упоминалось в разделе 4.2. , рассматривая походку как комплекс, увеличивает объем тренировочных данных.

Есть две основные причины такого резкого улучшения. 1) SP извлекает функции на уровне последовательности на основе расширенных карт функций, которые могут хорошо сохранять временную информацию и в полной мере использовать пространственную информацию. 2) Как упоминалось в разделе 4.2, обработка походки как последовательности эквивалентна увеличению обучающих данных.

Impact of SP

В таблице 2 результаты с третьей строки по восьмую показывают влияние различных стратегий SP: SP с вниманием, совместная функция свертки 1×1 (1 1C) и max(·) обеспечивают наивысшую точность NM, Подмножества BG и CL соответственно.Учитывая, что SP с max() также достигла второй лучшей производительности на подмножествах NM и BG и имеет наиболее краткую структуру, мы выбрали его в качестве SP в окончательной версии GaitSet.

В табл. 2 результаты в строках 3-8 показывают влияние различных стратегий СЧ, а именно механизма СЧ+внимание, функции сверточной связи 1×1 и max( ), три стратегии СЧ получаются в каждой подпоследовательности с наивысшей точностью. Но, принимая во внимание, что max() не только обеспечивает наивысшую степень точности в подпоследовательности CL, но также получает вторую по величине степень точности в подпоследовательностях NM и BG, мы выбираем max() в качестве окончательной политики SP.

Impact of HPM and MGP

Вторая и третья строки таблицы 2 сравнивают влияние независимого веса в HPM.Видно, что использование независимого веса повышает точность примерно на 2% на каждом подмножестве.В экспериментах мы также выяснили, что введение независимый вес помогает сети сходиться быстрее.Последние две строки таблицы 2 показывают, что MGP может улучшить все три тестовых подмножества.Этот результат согласуется с теорией, упомянутой в разделе 3.4, о том, что функции уровня множества, извлеченные из разных слоев основной конвейер содержит различную ценную информацию.

Строки 2 и 3 Таблицы 2 сравнивают влияние независимых весов HPM. Видно, что независимые веса могут повысить точность каждой подпоследовательности на 2%. В ходе экспериментов мы также обнаружили, что введение независимых весов может помочь сети сходиться быстрее. Последние две строки табл. 2 показывают, что добавление MGP может одновременно повысить точность всех подпоследовательностей. Теоретическая основа этого результата описана в разделе 3.4.Функции уровня кадра извлекаются из разных слоев в основном процессе и содержат различную ценную информацию.

4.4 Практичность

Из-за гибкости набора GaitSet имеет большой потенциал в более сложных практических условиях.В этом разделе мы исследуем практичность GaitSet в трех новых сценариях.1) Как он будет работать, когда входной набор содержит только несколько силуэтов?2) Могут ли силуэты с разных ракурсов повысить точность идентификации?3)Может ли модель эффективно извлекать дискриминативное представление из набора, содержащего силуэты, снятые в разных условиях ходьбы.Стоит отметить, что мы не переобучали нашу модель в этих экспериментах.Она полностью идентична к тому, что в разделе 4.2 с настройкой LT.Обратите внимание, что все эксперименты, содержащие случайный выбор в этом разделе, выполняются 10 раз, и сообщается средняя точность.

Благодаря гибкости последовательностей GaitSet по-прежнему обладает большим потенциалом для решения более сложных реальных ситуаций. В этом разделе мы исследуем полезность подходов в трех новых сценариях.

1) Может ли GaiSet по-прежнему работать хорошо, когда на входе всего несколько контуров?

2) Могут ли контуры с разными углами обзора повысить точность распознавания?

3) Может ли модель эффективно извлекать признаки экспрессии из последовательности, содержащей контуры различных состояний ходьбы?

Примечательно, что мы не переобучали нашу модель в этих экспериментах. Время модели точно такое же, как и в конфигурации LT в разделе 4.2. ПРИМЕЧАНИЕ. Все эксперименты со случайным выбором проводились 10 раз, и сообщается средняя точность 10 экспериментов.

Ограниченное количество силуэтов Ограниченное количество силуэтов

В реальных криминалистических сценариях опознания бывают случаи, когда мы имеем не непрерывную последовательность походки испытуемого, а лишь какие-то прерывистые и спорадические силуэты.Мы имитируем такое обстоятельство, случайным образом выбирая определенное количество кадров из последовательностей для составления каждой выборки в обоих случаях. Галерея и зонд На рисунке 5 показано соотношение между количеством силуэтов в каждом входном наборе и точностью ранга 1, усредненной по всем 11 изображениям зонда

В реальных сценариях криминалистической идентификации во многих случаях мы не можем получить непрерывную последовательность походки цели, только некоторые прерывистые и спорадические контуры. Мы моделируем описанный выше сценарий, случайным образом выбирая несколько кадров в непрерывной последовательности. На рис. 5 показано соотношение между количеством контуров входной последовательности на группу и частотой однократных снимков для 11 просмотров.

Рисунок 5. Набор данных CASIA-B обучается с помощью LT, а средняя частота совпадений ограничена количеством контуров. Показатель точности представляет собой среднее значение для 11 углов обзора, исключая один и тот же угол обзора. И окончательный отчетный результат является средним из 10 экспериментов.

Our method attains an 82% accuracy with only 7 silhouettes. The result also indicates that our model makes full use of the temporal information of gait. Since 1) the accuracy rises monotonically with the increase of the number of silhouettes. 2) The accuracy is close to the best performance when the samples contain more than 25 silhouettes. This number is consistent with the number of frames that one gait period contains.

Наш метод обеспечивает точность 82% при вводе всего 7 контуров. Результаты также показывают, что наша модель полностью использует временную информацию о походке. так как:

1) С увеличением числа контуров точность монотонно возрастает.

2) Когда содержание выборки превышает 25 контуров, показатель точности близок к наилучшему состоянию. Это число соответствует количеству кадров, содержащихся в цикле походки.

Несколько представлений

Существуют условия, при которых могут быть собраны разные виды походки одного человека. Мы моделируем эти сценарии, создавая каждую выборку с силуэтами, выбранными из двух последовательностей с одинаковыми условиями ходьбы, но разными видами. Чтобы устранить влияние числа силуэтов, мы также проводим эксперимент в котором число силуэтов ограничено 10. В частности, в контрастных экспериментах с одним ракурсом входной набор состоит из 10 силуэтов из одной последовательности, а в эксперименте с двумя ракурсами входной набор состоит из 5 силуэтов из каждого из две последовательности.Обратите внимание, что в этом эксперименте только пробные образцы составлены описанным выше способом, тогда как образец в галерее составлен из всех силуэтов из одной последовательности.

В некоторых случаях собирается информация о походке с разных точек зрения человека. Мы моделируем описанную выше ситуацию, извлекая контуры из последовательностей разных точек зрения на одну и ту же синхронную ситуацию с одним человеком.

Чтобы исключить влияние количества контуров, мы также провели эксперимент, в котором количество контуров было ограничено 10. В частности, в контрастном эксперименте с одним изображением входная последовательность состоит из 10 контуров. В экспериментах с двумя представлениями входная последовательность состоит из 5 контуров, извлеченных из каждой последовательности, всего 10 контуров. Стоит отметить, что только зонды в эксперименте были составлены, как указано выше, а остальные образцы в галерее были составлены из всех контуров в последовательности.

Результаты показаны на Таблице 4. Поскольку нужно показать слишком много пар ракурсов, мы суммируем результаты путем усреднения точности каждой возможной разницы ракурсов. Например, результат разницы 90◦ усредняется по точности 6 пар ракурсов (0 ◦&90◦,18◦&108◦,...,90◦&180◦). Кроме того, 9 различий в проекциях складываются под углом 90◦, а те, что больше 90◦, усредняются с соответствующими разностями в проекциях менее 90◦. Например , результаты разницы обзора 18◦ усредняются с результатами разницы обзора 162◦.

В Табл.4 показаны результаты. Поскольку нужно показать так много пар углов обзора, мы усреднили результаты для каждого возможного смещения угла обзора. Например: среднее значение 6 пар углов обзора (0°&90°, 18°&108°,...,90°&180°) в столбце 90°. Кроме того, всего существует 9 возможных различий углов обзора, а части больше 90° и меньше 90° симметрично комбинируются для получения среднего значения. Например, показатели точности разницы углов обзора 18° и разницы углов обзора 162° объединяются для расчета средней степени точности.

It can be seen that our model can aggregate information from different views and boost the performance. This can be explained by the pattern between views and accuracies that we have discussed in Sec. 4.2. Containing multiple views in the input set can let the model gather both parallel and vertical information, resulting in performance improvement.

Как видно, наша модель может агрегировать информацию из разных представлений и повышать производительность. Это можно объяснить закономерностью между представлением и точностью, которую мы обсуждали в разделе 4.2. Включение многоракурсных входных последовательностей позволяет модели агрегировать информацию о параллельном (90°) и вертикальном (0° и 180°) виде для повышения производительности.

Multiple Walking Conditions

В реальной жизни вполне возможно, что последовательности походки одного и того же человека находятся в разных условиях ходьбы.Мы имитируем такое состояние, формируя входной набор с силуэтами из двух последовательностей с одинаковым видом, но разными условиями ходьбы.Мы проводим эксперименты с разным номером силуэта. Обратите внимание, что в этом эксперименте только пробные образцы составляются описанным выше способом. Любая выборка в галерее состоит из всех силуэтов из одной последовательности. Более того, деление зонда на галерею в этом эксперименте отличается. Для каждого субъекта последовательности NM #02, BG #02 и CL #02 хранятся в галерее, а последовательности NM #01, BG #01 и CL #01 используются в качестве зонда.

В реальной жизни очень вероятно, что у одного и того же человека разные состояния ходьбы. Мы создаем последовательность, имитирующую описанную выше ситуацию, извлекая контуры из последовательности двух разных состояний ходьбы с одного и того же вида. Экспериментируем с разным количеством контуров. Примечание. Только пробные образцы построены, как указано выше, другие образцы по-прежнему используют все контуры в последовательности. Кроме того, разделение зонда для этого эксперимента было несколько другим. Для каждой мишени последовательности NM #02, BG #02 и CL #02 остаются в галерее, но NM #01, BG #01 и CL #01 служат зондами.

Результаты показаны на Таблице 5. Во-первых, точность по-прежнему будет повышаться с увеличением числа силуэтов. Во-вторых, когда число силуэтов фиксировано, результаты показывают взаимосвязь между различными условиями ходьбы. Силуэты BG и CL содержат массивные, но разные шумов, что делает их дополняющими друг друга.Таким образом, их комбинация может повысить точность.Однако силуэты НМ содержат мало шумов, поэтому замена некоторых из них силуэтами двух других условий не может принести дополнительной информации, а только шумы и может уменьшить точность.

Tab.5 показывает результаты. Во-первых, показатель точности увеличивается с увеличением количества контуров. Во-вторых, при фиксированном количестве контуров выявляется взаимосвязь между различными условиями ходьбы. Контуры BG и CL содержат большое количество различных контуров с разными шумами, что делает их взаимодополняющими. Следовательно, их комбинация может повысить точность. Однако контуры НМ содержат мало шума, поэтому замена некоторых НМ контурами двух других условий не может принести полезной информации, а только шум, и снизит точность.

"5. Заключение

В этой статье мы представили новую точку зрения, которая рассматривает походку как набор, и поэтому предложили подход GaitSet. GaitSet может извлекать как пространственную, так и временную информацию более эффективно и действенно, чем существующие методы, рассматривающие походку как шаблон или последовательность. новый способ агрегирования ценной информации из различных последовательностей для повышения точности распознавания.Эксперименты с двумя эталонными наборами данных походки показали, что по сравнению с другими современными алгоритмами GaitSet обеспечивает высочайшую точность распознавания и выявляет широкий спектр гибкость в различных сложных средах, демонстрирующая большой потенциал в практических приложениях.В будущем мы исследуем более эффективную реализацию Set Pooling (SP) и еще больше улучшим производительность в сложных сценариях.

В этой статье мы предлагаем метод GaitSet, представляя новую перспективу, которая рассматривает походку как набор последовательностей.

GaitSet может извлекать пространственную и временную информацию более эффективно, чем существующие методы, использующие походку в качестве шаблона или последовательности. Он также предоставляет новый способ агрегирования ценной информации из разных последовательностей для повышения точности распознавания.

Эксперименты с двумя эталонными наборами данных походки (общедоступные стандартные наборы данных) показывают, что по сравнению с другими современными алгоритмами GaitSet обеспечивает высочайшую точность распознавания и демонстрирует широкую гибкость в различных сложных средах, а на практике применение показывает большой потенциал.

В будущем мы изучим более эффективную реализацию Set Pooling (SP) и еще больше улучшим производительность сложных сцен.