Задание HOI: Чтение бумаги PPDM [Интенсивное чтение]

компьютерное зрение

Резюме

Авторы предлагают одноэтапный метод обнаружения HOI, который выполняет SOTA. Это первый метод обнаружения HOI в реальном времени. Традиционные методы обнаружения HOI состоят из двух этапов, но их эффективность и действенность ограничены последовательной и независимой архитектурой. В этой статье автор предлагает структуру обнаружения HOI для PPDM. В PPDM HOI определяется как тройка точек , где точка человека и точка объекта являются центром кадра обнаружения, а точка взаимодействия является средней точкой точки человека и точки объекта.

PPDM содержит две параллельные ветви, а именноветвь точечного обнаруженияиветвь сопоставления точек. Предсказание ветви обнаружения точки составляет три точки, а ветвь сопоставления точек предсказывает смещение от точки взаимодействия до соответствующей точки человека и точки объекта. Точка человека и точка объекта считаются совпадающими, если они находятся в одной и той же точке взаимодействия.

В нашей новой параллельной структуре точки взаимодействия неявно обеспечивают контекст и регуляризацию для обнаружения людей и объектов. Подавить изолированные поля обнаружения, потому что невозможно сформировать значимые триплеты HOI (личное понимание: области-кандидаты человек-объект генерируются отдельно, без учета связи между ними, эта ситуация не способствует обнаружению, поэтому ее следует подавить), что Повышена точность обнаружения HOI. Более того, поля для обнаружения людей и объектов применяются только к ограниченному числу отфильтрованных точек взаимодействия-кандидатов, что экономит много вычислительных ресурсов. Кроме того, авторы создали новый набор данных HOI-A.

1. Introduction

Традиционный метод HOI состоит из двух этапов. Первый этап — обнаружение кандидатов в человеко-объект. На этом этапе может быть получено большое количество областей-кандидатов пары человек-объект (M×N). Второй этап заключается в прогнозировании взаимодействия каждой области-кандидата «человек-объект». Эффективность и действенность этого двухэтапного подхода ограничена последовательностью и независимостью. Этап генерации области-кандидата полностью основан на достоверности обнаружения объекта.Каждый кандидат человека/объекта генерируется индивидуально. На втором этапе не рассматривалась возможность объединения двух областей-кандидатов для формирования значимого триплета HOI.(Личное понимание: то, что упоминается в аннотации, ограничено независимой архитектурой). Следовательно, сгенерированные области-кандидаты-человеки могут быть низкого качества, и на втором этапе все области-кандидаты-человеки необходимо линейно сканировать, что очень дорого. Поэтому автор считает, что необходима непоследовательная и сильно связанная структура.

Первая ветвь PPDM оценивает центральную точку (взаимодействие, точка человека и объекта), соответствующий размер и определение точки двух локальных смещений (точка человека и объекта). Поскольку можно считать, что точка взаимодействия предоставляет контекстную информацию для обнаружения людей и вещей, то есть оценка точки взаимодействия может неявно улучшить обнаружение людей и вещей (личное понимание: оценка точки взаимодействия должна увеличиться). рецептивное поле, потому что оно требует от людей информации о предметах и ​​предметах, поэтому увеличение рецептивного поля также используется для обнаружения людей и предметов). Вторая ветвь — сопоставление точек, которое оценивает смещение точки взаимодействия относительно точки человека и точки объекта.

Авторы внесли три вклада: (1) рассматривают задачу обнаружения HOI как задачу обнаружения и сопоставления точек и предлагают одноэтапный PPDM. (2) PPDM — это первый метод обнаружения HOI, который обеспечивает производительность в режиме реального времени в тестах HOCI-DET и HOI-A и выполняет SOTA. (3) ХОИ-А

2. Related Work

совсем немного....

3. Parallel point dection and matching

3.1 Overview

Рисунок 3. Авторы сначала применяют сеть предсказания тепловой карты бочонков для извлечения извлеченных функций, таких как Hourglass-104 или DLA-34. а)Point Detection Branch: На основе извлеченных визуальных признаков автор использует три модуля свертки для прогнозирования точек взаимодействия, центральных точек человека и центральных точек объекта на тепловой карте, а также двумерного размера регрессии и локального смещения людей и объектов для создания финальная коробка. б)Point Matching Branch: первый шаг этой ветви состоит в регрессии смещения от точки взаимодействия к центральной точке человека и к центральной точке объекта соответственно. На основе предсказанных точек и смещений вторым шагом является создание серии троек путем сопоставления центральных точек человека и объекта для каждой точки взаимодействия.

3.2 Point Detection

Входное изображение на рисунке 3II, функции, сгенерированные экстрактором функцийVV. Человеческий центр выражается как(xh,yh)(x^h,y^h), и соответствующий ему размер(wh,hh)(w^h,h^h), локальное смещение равнодельтаch\delta c^h, чтобы компенсировать ошибку дискретизации, вызванную выходным шагом. Точка с низким разрешением, соответствующая центральной точке человека GT (сгенерированная тепловой картой), представляет собой(xh,yh)=(xhd,yhd)(\overline{x}^h,\overline{y}^h)=(\frac{x^h}{d},\frac{y^h}{d})округляется вниз.

Point location loss.Точки трудно обнаружить напрямую, поэтому авторы используют метод оценки ключевых точек для сопоставления точек с тепловой картой ядра Гаусса. Таким образом, обнаружение точек превращается в задачу оценки тепловой карты. Три точки GT с низким разрешением сопоставляются с тремя гауссовскими тепловыми картами, включая тепловую карту центральной точки человека.Ch\overline{C}^h, тепловая карта центральной точки объектаCo\overline{C}^o, тепловая карта точек взаимодействияCa\overline{C}^aCo\overline{C}^oиCa\overline{C}^aявляется многоканальным. на карте объектовVVВыше добавьте три сверточные сети для создания трех тепловых карт соответственно. Функция потерь:

Size and offset loss, На карту объектов добавлены четыре модуля свертки.VVдля создания 2-D размера и локального смещения людей и объектов соответственно.LoffL_{off}за

3.3 Point Matching

Ветвь смещения состоит из двух сверточных модулей.

Diaplacement loss:

Triplet matching: оценка совпадения центральной точки человека и объекта зависит от двух аспектов: во-первых, точка взаимодействия не находится близко к приблизительной центральной точке человека/объекта после добавления смещения, а во-вторых, она имеет высокая степень уверенности.

![](git ee.com/for hairdry/my… matching.png)

3.4 Loss and Inference

Окончательный проигрыш:

![](git ee.com/for hairdry/my… loss final.png)

На этапе вывода автор сначала использует операцию max-pooing 3x3 на тепловой карте предсказанных людей, объектов и точек взаимодействия, а затем выбирает K лучших личных центральных точек, центральных точек объектов и точек взаимодействия с помощью соответствующей достоверности и наконец, тройки совпадают. Для каждой совпадающей центральной точки человека результирующее поле выглядит следующим образом:

![](git ee.com/for hairdry/my… box final.png)

4 личных резюме

1. Какую проблему решает статья?:

Решите традиционную двухэтапную проблему обнаружения HOI.

2. Объясните мысль статьи своими словами

Авторы предлагают параллельную одноэтапную сеть обнаружения HOI, PPDM. PPDM сначала использует сеть прогнозирования тепловой карты ключевых точек для извлечения признаков, а затем имеет две параллельные ветви, а именно ветвь обнаружения точек и ветвь сопоставления точек. В ветви обнаружения точки прогнозируются три точки (центральная точка человека, центральная точка объекта и точка взаимодействия) на основе их соответствующих величин, а также локальных смещений. В ветви сопоставления точек прогнозируется смещение от точки взаимодействия до центральной точки человека и центральной точки объекта, а персональная центральная точка TOP K, центральная точка объекта и точка взаимодействия выбираются в соответствии с достоверностью, и, наконец, триплеты совпадают.

3. Ключевые факторы

  • Предсказывать точки напрямую сложнее, поэтому сопоставьте точки с тепловой картой ядра Гаусса, преобразуя обнаружение точек в задачу оценки тепловой карты.
  • Традиционное обнаружение HOI представляет собой последовательный двухэтапный процесс: сначала обнаружение области-кандидата, а затем взаимодействие с предсказанием, в то время как PPDM представляет собой параллельную ветвь. Одна ветвь прогнозирует поле человека-объекта и его точку взаимодействия, а другая ветвь прогнозирует смещение точки взаимодействия и центральной точки человека-объекта.
  • Традиционное обнаружение человека и объекта обнаружения HOI осуществляется отдельно, без учета связи между ними, в то время как PPDM оценивается вместе с центральной точкой взаимодействия человека и центральной точкой объекта, чтобы лучше обнаружить точку взаимодействия, увеличить восприимчивое поле. , чувствовать Существует информация о контексте человек-объект в дикой природе, которая учитывает связь между ними.

4. Для моего использования

  • Преобразование прямых точечных прогнозов в прогнозы на тепловой карте с помощью сети тепловых карт ключевых точек.
  • Параллельные ветви PPDM соответственно отвечают за разные задачи.