Обзорная колонка | Обзор оценки позы

компьютерное зрение

Автор: Илиас Мансури

Перевод: как если бы был свет

Introduction

Как следует из названия, при оценке позы мы пытаемся сделать вывод о позе объекта или человека по изображению. Это включает в себя определение и расположение ключевых точек на теле. Распознавание ключевых точек является очень сложной задачей из-за фасеточных суставов тела, окклюзии и отсутствия контекста, вращения и ориентации. Основные суставы, такие как колени, локти, плечи и запястья, представляют собой эти ключевые точки, в то время как остальная часть этой статьи будет сосредоточена в основном на оценке позы человека.

С точки зрения классификации, оценщики позы можно разделить на следующие категории:

  • Размеры (2D и 3D)
  • Одна поза и несколько позы (обнаружение одного или нескольких объектов)
  • Методология (на основе ключевых точек или на основе примеров)

Мы можем использовать 2D-оценщик позы для прогнозирования 2D-позиций ключевых точек в изображении или видеокадре, в то время как 3D-оценщик позы преобразует объекты на изображении в 3D-объекты, добавляя глубину к прогнозу. Очевидно, что работать с 3D сложнее. Оценщики с одной позицией обычно нацелены на обнаружение и отслеживание одного человека или объекта, в то время как методы оценки с несколькими позами обнаруживают и отслеживают несколько людей или объектов. С точки зрения методологии, вообще говоря, мы обнаруживаем, что модель пытается обнаружить все экземпляры определенной ключевой точки, а затем пытается сгруппировать ключевые точки в скелеты. Оценщики позы на основе экземпляров сначала используют детектор объектов для обнаружения экземпляров объектов, а затем оценивают ключевые точки в каждой обрезанной области. В литературе это также обычно называют подходами «снизу вверх» и «сверху вниз».

Подход «сверху вниз» состоит из применения детектора человека к изображению и использования для каждого обнаруженного человека оценщика позы одного человека для вывода ключевых точек. Если ваш детектор человека дает сбой, то и ваша оценка позы тоже. Кроме того, объем необходимой обработки пропорционален количеству людей. Метод «снизу вверх» менее подвержен этим недостаткам, но по-прежнему сложно связать кандидатов на обнаружение ключевых точек с отдельными людьми.

Обратите внимание, сосредоточьтесь на технической сводке компьютерного зрения, обмене документами

DeepPose

В этой статье авторы впервые применяют глубокую нейронную сеть (DNN) для оценки позы человека. Ниже мы находим используемую архитектуру.

Используя входное изображение, можно регрессировать каждый сустав тела и его положение. Совместные прогнозы могут быть дополнительно уточнены путем передачи необработанных начальных оценок позы в каскад таких DNN, что приводит к результатам SOTA.

Deep(er) Cut

С помощью DeepCut проблема оценки позы неизвестных людей на изображении переформулируется как задача оптимизации. Проблема в следующем:

  • Создайте набор всех частей тела-кандидатов на изображении, из которого нужно выбрать подмножество.
  • Из этого подмножества классифицируйте каждую часть тела (например, руки, ноги и голову)
  • Сгруппируйте части тела одного и того же человека вместе.

Затем эти 3 проблемы решаются путем моделирования их как задачи целочисленного линейного программирования.

Для поиска всех частей тела на изображении использовалась адаптация Fast R-CNN (AFR-CNN). В частности, адаптация включает в себя замену генерации предложений выборочного поиска моделью деформируемой детали (DPM) и изменение размера обнаружения, чтобы позволить DPM захватывать больше контекста.

Начиная с исследований 70-х годов, они занимались проблемой иметь какое-то описание визуального объекта, как найти этот объект на реальной фотографии? В истинно инженерной форме объект состоит из набора частей, расположенных в деформируемой конфигурации.

Part-based model of a human

Люди представлены наборами частей, расположенных в деформируемых конфигурациях. Затем внешний вид каждой детали моделируется отдельно. Пара деталей представлена ​​пружинами для придания необходимой деформационной способности.

Подозревали, что использование DPM может быть неоптимальным (так оно и было), вместо этого обучили плотную сборку CNN на основе VGG. Затем обнаружение частей тела переформулируется как классификация с несколькими метками. Модель выводит карту оценки частичной вероятности для каждого кандидата. Кроме того, как и в других задачах сегментации, расширенные извилины с шагом 8 используются для более тонкой локализации частей.

DeepCut основан на Dense-CNN DeepCut, но вместо этого использует магистраль ResNet. Как и в случае с основой VGG, исходный шаг в 32 пикселя слишком велик. Однако использование алгоритмов дырок невозможно из-за ограничений памяти. Настройте архитектуру ResNet, удалив последний слой, уменьшив шаг первого сверточного слоя, чтобы предотвратить понижение частоты дискретизации. В 5-й свёртке во все свёртки 3х3 добавлены отверстия. слои и слои деконволюции используются для повышения дискретизации.

DeeperCut также выигрывает от более крупного рецептивного поля, позволяющего определить местоположение других близлежащих частей. Это понимание, известное как парный термин, обусловленный образом, позволяет вычислять парные вероятности частей.

Попарное прогнозирование по частям: логистическая регрессия обучается путем вычисления стоимости пары, смещения и угла регрессии как признаков, что приводит к парным вероятностям.

DeepCut решает один экземпляр ILP для всех частей тела-кандидатов на изображении, DeepCut предлагает поэтапную трехэтапную оптимизацию, где:

  • ILP решает проблему головы и плеч
  • Локоть/запястье добавлены в решение Фазы 1, а ILP повторно оптимизирована
  • Добавьте оставшиеся части тела в решение этапа 2 и повторно оптимизируйте ILP.

Совместное обучение сверточных сетей и графических моделей для оценки позы человека

В этой статье конвейер обнаружения состоит из сверточных сетей и марковских случайных полей (MRF). Как и прежде, архитектура ConvNet используется для локализации частей тела. Архитектура показана на следующем рисунке:

Multi-Resolution Sliding-Window With Overlapping Receptive Fields

Архитектура обрабатывает входное изображение, используя метод скользящего окна, в результате чего получается пиксельная тепловая карта, представляющая вероятность местоположения каждого сустава.

Есть 2 перекрывающихся поля с несколькими разрешениями, вход 64x64 (upconvolution) и вход 128x128 с пониженной частотой дискретизации до 64x64, таким образом, подавая больше «контекста» в путь downconvolution. Оба затем нормализуются с использованием нормализации локального контраста (LCN) перед передачей в сеть.

Авторы отмечают, что основным преимуществом использования перекрывающихся полей является возможность видеть большую часть изображения при относительно небольшом увеличении веса. Кроме того, при использовании LCN перекрывающийся спектральный контент между двумя окнами минимален. Поскольку для этого требуются значительные вычислительные мощности, модель улучшена, как показано ниже.

Концепции мультиразрешения (нижняя ConvNet) и скользящего окна (верхняя ConvNet) сохранены. Входные данные с высоким контекстом и низким разрешением требуют половины шага модели скользящего окна. Следовательно, необходимо обработать 4 изображения с пониженной частотой дискретизации. Карты объектов для скользящих окон реплицируются, при этом карты объектов с низким разрешением добавляются и чередуются, в результате чего выходные тепловые карты ниже, чем входные.

Детектор частей будет выводить много анатомически неправильных поз, потому что неявные ограничения ключевых точек тела не моделируются. Эта проблема аккуратно решается путем создания ограничений на анатомическую согласованность соединительных взаимосвязей и поз с использованием расширенной пространственной модели. Эта пространственная модель выражается как модель MRF. Сначала обучив частичный детектор и повторно используя полученные выходные данные тепловой карты для обучения пространственной модели, мы можем обучить MRF, который сформулирует совместные зависимости в графической модели. Наконец, точная настройка и обратное распространение выполняются на унифицированной модели (детектор частей + пространственная модель).

Эффективная локализация объектов с использованием сверточных сетей

Основываясь на ранее упомянутой работе, это исследование реализует ConvNet с несколькими разрешениями для оценки совместных смещений в небольших областях изображения. Ниже мы находим архитектуру, и легко увидеть сходство с архитектурами, обсуждавшимися ранее.

Кроме того, был добавлен слой Spatial Dropout. Было обнаружено, что применение стандартного отсева не предотвратило переоснащение из-за сильных пространственных корреляций в картах объектов. Решение состоит в том, чтобы удалить всю карту объектов 1D, чтобы обеспечить независимость между картами объектов. Как и раньше, (грубая) тепловая карта передается в MRF, который отфильтровывает анатомически невозможные позы.

Следующим шагом является восстановление пространственной информации, потерянной из-за объединения. Это достигается за счет использования другой ConvNet для уточнения результатов грубой тепловой карты.

Сверточная машина позы

Convolutional Pose Machines (CPM) наследуют и строятся на архитектуре Pose Machine (PM), которая объединяет богатые пространственные взаимодействия от частей тела и различных масштабов в модульную и последовательную структуру. Как мы увидим, CPM еще больше улучшает PM за счет использования сверточной архитектуры, которая изучает представления признаков для изображения и пространственного контекста.

Как мы видим ниже, PM — это алгоритм последовательного прогнозирования, который имитирует механизм передачи сообщений для прогнозирования достоверности каждой части тела. Обоснование состоит в том, что предполагаемая достоверность для каждой части тела итеративно улучшается на каждом этапе. Передачу сообщений можно понимать как последовательность вероятностных классификаций, где выходные данные предиктора (независимо от типа мультиклассового классификатора) становятся входными данными следующего предиктора.

Architecture of a 1 Stage Pose Machine (a) and a 2 Stage Pose Machine (b)

На каждом этапе классификатор с уверенностью предсказывает местоположение каждой части тела на основе выходных данных предыдущего классификатора и особенностей изображения. Затем для каждого этапа прогнозы уточняются. Наконец, мы можем заметить, что для каждого изображения создается иерархическое представление путем повторного использования изображений в разных масштабах.

На уровне 1, как видно на изображении, создается грубое представление всей модели, в то время как уровень 2 представляет собой состав частей тела, и, наконец, уровень 3, наиболее точное представление, состоит из областей вокруг ключевых точек. Обучите один многоклассовый предиктор для каждого этапа на всех уровнях иерархии. Это означает обучение каждого предиктора выводить набор достоверностей для каждой ключевой точки из векторов признаков, которые могут исходить из любого иерархического уровня.

Под линией (а) мы можем наблюдать, как векторизованный участок генерируется путем объединения оценок достоверности в положении z для построения пространственной корреляции между достоверностями каждой части тела. Для получения дальних взаимодействий применяется немаксимальное подавление для получения списка пиков (местоположений с высокой достоверностью) для каждой ключевой точки/части тела, по которым можно рассчитать смещения в полярных координатах.

Замена частей прогнозирования и извлечения признаков на CNN дает нашу CPM, сквозную архитектуру.

Architecture of the Pose Machine (a & b) and Convolutional Pose Machine (c & d)

На первом этапе архитектуры создаются карты признаков из постоянно растущего рецептивного поля на основе входного изображения. Последующие этапы будут использовать входное изображение и карты признаков из предыдущего этапа для уточнения прогнозов для каждой части тела. Использование промежуточного слоя потерь предотвращает исчезновение градиентов во время обучения.

Как описано в документе, последующие предикторы могут использовать предыдущие карты признаков в качестве надежных подсказок относительно того, где должны быть определенные части, помогая исключить ошибочные оценки. Постепенно увеличивая рецептивное поле, модель может научиться включать контекстную информацию в карты признаков, что позволяет ей изучать сложные взаимосвязи частей тела без моделирования какой-либо графической модели, представляющей человеческое тело.

Сложенная сеть песочных часов

Из-за необходимости сбора информации в каждом масштабе была разработана новая архитектура CNN, в которой функции во всех масштабах обрабатываются для захвата пространственных отношений человеческого тела. Локальная информация необходима для идентификации частей тела, в то время как анатомическое понимание лучше определяется в разных масштабах.

Architecture of an hourglass module

На изображении выше мы можем сразу увидеть симметричное разделение обработки снизу вверх и сверху вниз. Этот тип архитектуры обсуждался ранее для семантической сегментации, за исключением того, что он называется архитектурой conv-deconv или кодировщик-декодер.

Как правило, входные объекты обрабатываются набором слоев свертки и максимального объединения. После каждого слоя максимального объединения мы разветвляем сеть и применяем еще один набор слоев свертки и максимального объединения к исходным входным данным объекта. На приведенном выше рисунке каждый блок состоит из набора слоев свертки и максимального объединения. Точная конфигурация конверсионных слоев очень гибкая.

Судя по успеху ResNets, авторы наконец внедрили остаточный модуль в каждый блок. Как только достигается самое низкое разрешение, инициируется декодер или нисходящий подход, при котором сеть эффективно объединяет функции в разных масштабах. Наконец, две свертки 1x1, невидимые на изображении, применяются для создания набора тепловых карт, где каждая тепловая карта предсказывает вероятность существования ключевой точки.

Путем создания серии модулей песочных часов, в которых выходные данные одного из них поступают на вход другого, получается механизм переоценки признаков и пространственных отношений более высокого порядка. Как и раньше, он предоставляет ключу функцию промежуточных потерь. Как есть, потери (или контроль) могут быть предоставлены только после этапа повышения дискретизации. Следовательно, эти функции не могут быть переоценены в более широком глобальном контексте.

Это означает, что если мы хотим, чтобы сеть улучшала прогнозы, эти прогнозы должны быть не только локального масштаба, но и иметь более крупные масштабы, чтобы прогнозы были актуальны в более широком контексте изображения. Ниже мы можем наблюдать предлагаемое решение:

Обзор промежуточного процесса контроля для применения потерь на сгенерированной тепловой карте (синий)

Создайте промежуточные тепловые карты, примените к ним потери, затем используйте преобразование 1x1, чтобы переназначить эти тепловые карты на функции и объединить их с функциями, выведенными предыдущим модулем песочных часов.

Тренировка проводится на последовательности из 8 модулей песочных часов, которые не делят веса друг с другом. На тепловой карте используются среднеквадратичные потери, каждый модуль использует одну и ту же функцию потерь и наземную истину.

OpenPose

OpenPose, также первая библиотека с открытым исходным кодом для обнаружения ключевых точек в реальном времени, представляет собой улучшенную версию CMUPose. В CMUPose предлагается первая восходящая оценка позы с использованием полей сходства частей (PAF).

Для входного изображения тепловая карта, представляющая вероятность появления ключевой точки в каждом пикселе, равна и генерирует векторное поле частичного сходства. Оба они производятся многоуровневой CNN с двумя ветвями, как показано ниже.

Входное изображение настраивается через первые 10 слоев VGG, из которых генерируются карты признаков F. Эта карта признаков F затем используется в качестве входных данных для первого этапа каждой ветви. Ветвь 1 (верхняя ветвь) предсказывает карты достоверности для ключевых точек, а ветвь 2 предсказывает поля частичного сродства. Карты достоверности и поля сходства уточняются путем объединения предыдущих прогнозов и карт признаков F из обеих ветвей. В конце этапа применяется потеря L2 между расчетным и истинным значениями.

Как часто можно было видеть ранее, карты достоверности — это 2D-тепловые карты, которые выражают уверенность в том, что в данном пикселе существуют ключевые точки. Поле сходства частей представляет собой двумерное векторное поле, которое кодирует направление от одной части конечности к другой. Преимущество этого представления функции заключается в том, что оно сохраняет информацию о местоположении и ориентации области поддержки конечности. Выполняя немаксимальное подавление, мы получаем набор возможных мест расположения частей тела. Затем каждый из них может быть назначен нескольким людям. Расчеты линейного интеграла использовались для количественной оценки влияния поля вдоль кривой на поле сродства с частями тела, соответствующими человеческим.

Основываясь на работе CMUPose, OpenPose использует PAF только для задач оценки позы, тем самым устраняя уверенность в части тела. Ниже мы можем наблюдать, что PAF сначала кодируется, что представляет ассоциации между частями, а затем передается в CNN для вывода карт достоверности обнаружения.

Architecture of multi-stage OpenPose

Увеличьте глубину сети, заменив сверточные слои 7x7 тремя последовательными ядрами 3x3, которые выводят соединения. В вычислительном отношении объем обработки сокращается вдвое, поскольку карты PAF и достоверности больше не нужно уточнять на каждом этапе. Вместо этого сначала уточняется PAF и передается на следующий этап, а затем уточняется карта достоверности. Расположение частей тела можно определить, если обрабатывается PAF, но не наоборот.

(Higher)HRNet

Обсуждается новая архитектура, в которой подсети от высокого до низкого разрешения соединяются параллельно, а не последовательно, как в большинстве существующих решений, поддерживающих представления с высоким разрешением.

HRNet architecture

Богатые функции с высоким разрешением получаются за счет многомасштабного объединения подсетей, так что каждое представление с высоким и низким разрешением получает информацию от других параллельных представлений. Понижение частоты дискретизации происходит с использованием пошаговой свертки, а повышение частоты — с помощью свертки 1x1 и повышения частоты дискретизации ближайшего соседа. Тепловые карты регрессируют от основной ветки высокого разрешения.

Основываясь на этой предварительной работе, Higher HRNet решает две основные задачи:

  • Как улучшить производительность логического вывода маленьких людей, не жертвуя производительностью логического вывода больших людей?
  • Как создать тепловые карты высокого разрешения для обнаружения ключевых точек маленьких людей?

Используя HRNet в качестве основы, HigherHRNet (ниже) добавляет модуль деконволюции, в котором тепловые карты прогнозируются на основе карт объектов с более высоким разрешением.

Основа представляет собой последовательность из 2 конверсионных слоев 3x3, уменьшающих разрешение на четверть, затем вход проходит через магистраль HRNet. Слой деконволюции 4x4, за которым следуют BatchNorm и ReLU, принимает в качестве входных признаков и тепловых карт прогнозирования и создает карты признаков, вдвое превышающие размер входных данных.

Остаточный блок (4) добавляется после слоя восстановления для уточнения карт объектов с высоким разрешением. Наконец, тепловые карты пирамиды признаков агрегируются путем повышения дискретизации карт признаков с низким разрешением с использованием билинейной интерполяции, а окончательный прогноз получается путем усреднения всех тепловых карт.

PifPaf

PifPaf был разработан с целью оценки человеческих поз в толпе людей в городских условиях, что делает его пригодным для беспилотных автомобилей, роботов-доставщиков и многого другого. Ниже мы видим, что магистраль ResNet используется с двумя головками: поле интенсивности частей (PIF) предсказывает расположение, размер и достоверность ключевых точек, а поле ассоциации частей (PAF) предсказывает ключевые отношения между точками.

PifPaf Architecture

Более конкретно, PIF выводит достоверность, компонент вектора, указывающий на ближайшую характерную точку, с коэффициентом расширения и масштабом. Как вы можете видеть ниже, карта уверенности довольно грубая. Следовательно, локализацию этой карты достоверности можно улучшить, объединив ее с векторным полем, которое генерирует карту достоверности с более высоким разрешением. Затем из этого домена можно узнать масштаб или пространственную протяженность суставов. Эта шкала и приведенное выше распространение помогают улучшить производительность оценки позы для людей с разным размером тела.

Left: confidence map, Middle: vector field, Right: fused confidence map

Используйте PAF, чтобы соединить положения суставов снизу вверх в позы, пытаясь соединить пару ассоциаций ключевых точек. Примеры этих 19 ассоциаций:

  • Левая лодыжка к левому колену
  • левое бедро к правому бедру
  • нос к правому глазу

PAF связывает левое плечо и левое бедро

Для данной карты объектов в каждом месте происхождение двух векторов, связанных с ключевыми точками, прогнозируется PAF как достоверность (вверху слева). Уровни достоверности ассоциации выше 0,5 показаны справа.

Наконец, декодер берет два поля (PIF и PAF) и преобразует их в набор координат, представляющих человеческий скелет (17). Жадный алгоритм создает приоритетную очередь для всех типов ключевых точек, уменьшая достоверность. Эти точки используются как кандидаты (сиды), они извлекаются из очереди и добавляются к соединениям других суставов с помощью поля PAF. Ассоциации PAS оцениваются из-за возможности двойной связи между текущей и следующей ключевыми точками. Наконец, к каждому типу ключевых точек применяется немаксимальное подавление для создания человеческих скелетов.

DirectPose

Предлагается первый оценщик поз для нескольких человек, в котором аннотации ключевых точек используются для сквозного обучения, а для вывода модель способна сопоставлять входные данные с ключевыми точками для каждого отдельного экземпляра без какого-либо обнаружения коробки. Основываясь на появлении обнаружения объектов без привязки, которое немедленно регрессирует два угла ограничивающей рамки цели, исследователи решают вопрос о том, можно ли использовать этот метод обнаружения для обнаружения ключевых точек.

Обоснование состоит в том, что задачу обнаружения можно переформулировать как специальную ограничивающую рамку с более чем двумя углами. Они доказали, что он работал плохо, главным образом потому, что для регрессии всех ключевых точек использовался только один вектор признаков. Они решают эту проблему, расширяя полностью сверточную архитектуру одноэтапного обнаружения объектов (FCOS) выходной ветвью для обнаружения ключевых точек.

FCOS Architecture

FCOS переформулирует задачу обнаружения объектов для каждого пикселя. Подобно семантической сегментации, FCOS обрабатывает пиксели на входном изображении как обучающие образцы, а не как поля привязки в детекторах на основе привязки. Пиксели, которые попадают в наземную истину ограничительной рамки, считаются положительными и получают следующее:

  • метки классов для наземной истины
  • Четырехмерный вектор, представляющий расстояние от этого местоположения до четырех сторон ограничительной рамки, используемый в качестве цели регрессии для этого местоположения.

Использование Feature Pyramid Network (FPN) обеспечивает лучшую устойчивость к размерам объектов в разных масштабах. За картами объектов, сгенерированными магистралью (ResNet50), следуют свертки 1x1. Шаги слоев признаков P3, P4, P5, P6 и P7 равны 8, 16, 32, 64 и 128 соответственно. За исключением P6 и P7, соответствующие боковые соединения и пути сверху вниз были объединены путем добавления. Многоуровневое прогнозирование также учитывает возможность наложения двух разных ограничивающих рамок разного размера.

FCOS ограничивает регрессию для различных уровней карты объектов, используя следующие пороговые значения: 0, 64, 128, 256, 512 и бесконечность для всех уровней объектов (от P3 до P7). Эти пороги представляют собой максимальное расстояние, на которое необходимо регрессировать уровень признаков Pn. Если по-прежнему отображаются перекрывающиеся ограничивающие рамки, выберите наименьшую ограничивающую рамку.

Поскольку разные уровни функций регрессируют разные диапазоны размеров, требуются разные головки. Наконец, авторы вводят понятие центральности из-за множества некачественно предсказанных ограничивающих рамок, расположенных далеко от центра объекта. Этот заголовок предсказывает нормализованные расстояния на основе положения 4 краев ограничивающей рамки.

DirectPose рассматривает ключевые точки как особые ограничивающие рамки с K углами. Однако в их экспериментах наблюдалась низкая производительность из-за отсутствия соответствия между функциями и предсказанными ключевыми точками. Это связано с тем, что многие ключевые точки находятся далеко от центра восприимчивого поля собственных векторов. По мере того, как входной сигнал перемещается все дальше и дальше от центра рецептивного поля, сила реакции объекта на этот вход постепенно ослабевает.

Поэтому предлагается модуль выравнивания ключевых точек (KPAM). Взяв в качестве входных данных 256-канальную карту объектов, KPAM плотно скользит по этой карте объектов.

Локатор, как следует из названия, находит индекс, по которому вектор признаков предсказывает местоположение экземпляра ключевой точки, из которого образец признаков выбирает вектор признаков длиной 256. Для n-й ключевой точки n-й сверточный слой примет в качестве входных данных n-й вектор признаков и будет предсказывать координаты относительно положения отобранного вектора признаков.

Суммируя K смещений от Locator и от KPAAlign, мы получаем координаты, которые необходимо масштабировать, чтобы они соответствовали исходной карте объектов. В конце была использована небольшая корректировка, когда ключевые точки, которые всегда существовали в одной области (нос, глаза и уши), были сгруппированы и использовали один и тот же вектор признаков.

Наконец, мы можем видеть, как KPAM заменяет ранее упомянутый модуль ограничивающей рамки архитектуры FCOS. Мы наблюдаем дополнительную ветвь тепловой карты, которая используется в качестве вспомогательной задачи/потери, чтобы сделать задачи на основе регрессии более выполнимыми.

DirectPose Architecture

Conclusion

Очевидно, что задача оценки позы является достаточно сложной. Подходы «снизу вверх» неоднократно демонстрировали свое превосходство над подходами «сверху вниз», но они должны связывать ключевые моменты с людьми. Этот процесс группировки или сборки для создания ключевых точек с учетом конечного экземпляра может быть выполнен с использованием эвристики, моделирования человеческого скелета (структура графа) и / или карт достоверности с накоплением. Кроме того, сложность возрастает, когда считается, что неизвестное количество людей может появиться где угодно и в любом масштабе на изображении. Человеческое взаимодействие, суставы и, конечно же, окклюзии усложняют процесс сборки ключевых точек.

Оценка позы имеет важные приложения во взаимодействии человека с компьютером, распознавании действий, наблюдении, понимании изображений, прогнозировании угроз, робототехнике, AR и VR, анимации и играх.

Оригинальная ссылка:medium.com/@iexampleas_full из…

Эта статья взята из серии обзоров технического руководства CV для общедоступных аккаунтов.

Добро пожаловать в техническое руководство CV для общедоступной учетной записи, в котором основное внимание уделяется техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.

Ответьте на ключевое слово «Техническое резюме» в официальном аккаунте, чтобы получить резюме следующих статей в формате pdf.

Другие статьи

Самостоятельное внимание в компьютерном зрении

Классическая серия статей — Капсульные сети: новая сеть глубокого обучения

Обзорная колонка | Обзор оценки позы

Говоря об оптимизации CUDA

Почему GEMM лежит в основе глубокого обучения

Почему 8 бит достаточно для использования глубоких нейронных сетей?

Классическая серия документов | Обнаружение целей - CornerNet и также известные как дефекты якорных ящиков

Как просмотреть пузырь искусственного интеллекта

Четкое обнаружение границ с использованием Dice loss

PVT — многофункциональная основа для плотного прогнозирования без свертки

CVPR2021 | Обнаружение объектов в открытом мире

Siamese networkСводка

Визуальное обнаружение и распознавание объектов Прошлое, настоящее и возможное

Какие концепции или методы вы освоили за свою карьеру инженера-алгоритма, которые заставляют вас чувствовать, что вы выросли как на дрожжах?

Краткое изложение терминологии компьютерного зрения (1) Создание системы знаний для компьютерного зрения

Краткое изложение методов недообучения и переобучения

Резюме методов нормализации

Краткое изложение общих идей бумажных инноваций

Резюме методов эффективного чтения англоязычной литературы по направлению CV

Обзор непродолжительного обучения компьютерному зрению

Краткий обзор дистилляции знаний

Оптимизировать скорость чтения видео OpenCV

Сводка NMS

Краткое изложение методов функции потерь

Техническое резюме механизма внимания

Краткое изложение технологии пирамиды функций

Краткое изложение технологии объединения

Краткое изложение методов увеличения данных

Резюме эволюции структуры CNN (1) Классическая модель

Резюме эволюции структуры CNN (2) Облегченная модель

Резюме эволюции структуры CNN (3) Принципы проектирования

Как увидеть будущее направление компьютерного зрения

Краткое изложение технологии визуализации CNN (1) Визуализация карты характеристик

Краткое описание технологии визуализации CNN (2) Визуализация ядра свертки

Краткое изложение технологии визуализации CNN (три) визуализации

Краткое описание технологии визуализации CNN (4) инструменты и проекты визуализации