Трехмерная реконструкция человеческого тела (2) - Краткое описание метода параметрического человеческого тела

машинное обучение
Трехмерная реконструкция человеческого тела (2) - Краткое описание метода параметрического человеческого тела

Трехмерная форма человеческого тела относится к модели геометрии человеческого тела, представленной в виде трехмерной сетки. Согласно методу классификации в [1], трехмерную реконструкцию фигуры человека можно условно разделить на параметрические и непараметрические методы. На этот раз метод параметризации вводится первым.

Метод параметрической реконструкции формы человека основан на статистической параметрической модели человека и требует только набора низкоразмерных векторов (т. е. параметров человека) для описания формы человека. В настоящее время распространенными параметризованными моделями человеческого тела являются SCAPE[2], SMPL[3], SMPL-X[4] и так далее.

Взяв SCAPE в качестве примера, он определяет два независимых низкоразмерных пространства параметров: пространство формы человеческого тела (Shape) и пространство позы человеческого тела (Pose). Набор параметров формы человеческого тела и параметров положения человеческого тела в заданном пространстве может быть непосредственно синтезирован в форму человеческого тела. Пространство формы человеческого тела представлено подпространством, полученным путем уменьшения размерности PCA (анализ основных компонентов, анализ основных компонентов) в базах данных людей с одинаковой позой и разными формами тела, а параметры формы тела представляют собой коэффициенты каждого основания в подпространство. На рисунке 1 (а) показано, что изменения параметров на базе типа телосложения SCAPE влияют на изменения размеров тела у людей. Параметры позы SCAPE представлены вращением 17 частей тела относительно соответствующих частей тела стандартного шаблона.

Рисунок 1(а) Классическая параметрическая модель человеческого тела - SCAPE

С успехом модели SCAPE некоторые исследователи продолжают ее совершенствовать и предлагают различные модернизированные версии, такие как Blend Scape [5], Breath Scape [6], S-Scape [7] и так далее. Однако деформация модели SCAPE зависит от вращательной деформации треугольных граней, а не от метода деформации вершины, обычно используемого в анимационном программном обеспечении (например, при снятии скинов с костей), поэтому геометрическую модель человеческого тела, созданную SCAPE, трудно использовать в существующее программное обеспечение для анимации (такое как Maya, Blender и т. д.) можно использовать напрямую.

Недавно Институт Макса Планка в Германии открыл исходный код параметрической модели человеческого тела, основанной на деформации вершины, SMPL [3]. Деформация модели SMPL также контролируется параметрами формы тела и параметрами положения тела. Его параметры формы тела такие же, как у SCAPE, и представлены параметрами базы деформации формы тела, извлеченными с помощью PCA. Параметры позы представлены общим вращением человеческого тела и угловым поворотом 23 суставов, а деформация позы человеческого тела выполняется с помощью LBS (Linear Blend Skinning). Человеческое поколение SMPL показано на рис. 1 (б).

Рис. 1(б) Классическая параметрическая модель человеческого тела-СМПЛ Диаграмма деформации человеческого тела

Традиционные методы параметрической реконструкции человека обычно используют специальное оборудование для получения плотных трехмерных данных облака точек или данных о глубине человеческого тела, а затем подбирают параметры SCAPE посредством регистрации облака точек, деформации шаблона и т. д., а затем реконструируют трехмерную форму человека.

В последние годы многие исследователи использовали данные глубины человеческого тела, снятые камерой глубины Kinect, и моделью SCAPE для реконструкции трехмерной фигуры человека. Чжан и др. [8] собрали многоракурсные локальные данные облака точек тела человека с промежуточным вращением с помощью одной камеры Kinect, выполнили регистрацию, а затем использовали метод, аналогичный SCAPE, для построения человеческого тела, чтобы соответствовать облакам точек несколько просмотров.

Вайс и др. [9] также используют одну камеру Kinect, вместо того, чтобы поворачивать человеческое тело для получения многоракурсного локального облака точек, они захватывают несколько монокулярных карт глубины одного человека, движущегося перед Kinect, минимизируя репроекция контура модели человека SCAPE. Ошибка регистрации с контуром карты глубины оптимизирована и устранена, как показано на рисунке 2. Однако процесс решения этим методом очень трудоемкий (более 1 часа на реконструкцию человеческого тела).

Рисунок 2 Работа Weiss et al.

[10] также предложили метод параметрической реконструкции человека на основе одного Kinect. Сначала они использовали Kinect, чтобы получить две карты глубины передней и задней части человеческого тела, а затем использовали эти две карты глубины, чтобы реконструировать сетку половины человеческого тела, и, наконец, соединили их вместе. Результаты реконструкции человека с помощью вышеуказанных методов зависят от качества карты глубины, полученной Kinect. Однако из-за аппаратных ограничений Kinect полученная карта глубины часто содержит большой шум, что серьезно влияет на качество реконструкции.

Кроме того, некоторые другие работы не полагаются на плотное трехмерное облако точек или данные о глубине, полученные специальным оборудованием, в качестве входных данных для реконструкции, а используют, например, двумерные координаты точек сустава человека [12, 14], другие формы данных, такие как параметры описания [ 17–21] используются для ограничения параметрической реконструкции геометрии тела.

Гуан и др. [12] полагались на аннотированные вручную положения двухмерных точек соединения человеческого тела и автоматически сегментированный человеческий силуэт с помощью GrabCut [22] и минимизировали регистрацию визуализируемого изображения и человеческого силуэта с помощью SFS (форма из затенения). )., чтобы оптимизировать параметры SCAPE, как показано на рисунке 3.

Рисунок 3 Работа Гуана и др. [12]

SMPLify[14] представила 2D-модель оценки позы человека на основе сверточной нейронной сети.Они оптимизировали параметры SMPL (включая форму тела и позу, минимизировав ошибку регистрации репроекции между синтезированной 3D-позой человека и обнаруженными 2D-точками суставов). , добавляя ограничения проникновения человека, чтобы уменьшить неоднозначность перехода от 2D к 3D. Однако метод не ограничивает форму тела человека, и легко попасть в локальное оптимальное решение и вызвать неудачу реконструкции.

На основе SMPLify Ласснер и др. [23] добавили больше ограничений точек человеческого маркера (91 точка маркера) и получили более точные результаты реконструкции позы. В то же время они предложили использовать модель случайного леса (RandomForest) для изучения взаимосвязи между силуэтом человека и параметрами формы тела SMPL. Однако качество предсказанных ими человеческих силуэтов оставляет желать лучшего, что серьезно влияет на результаты предсказания формы тела.

В последние годы стали популярными методы параметрической реконструкции фигуры человека, основанные на глубоком обучении [24]. Дибра и др. [11] были первыми, кто использовал CNN (Convolutional нейронная сеть, сверточная нейронная сеть) для оценки параметров формы человеческого тела.Они напрямую использовали конкретную маску вида стоящего человеческого тела в качестве входных данных сверточной нейронной сети и напрямую возвращает параметры формы тела SCAPE. По сравнению с искусственно созданными функциями CNN может автоматически извлекать особенности формы тела и получать более точные результаты прогнозирования формы тела. Как показано на рисунке 4.

Рисунок 4 Работа Дибра и др. [11]

Впоследствии Дибра и др. [25] еще больше улучшили точность предсказания формы тела. Сначала они изучили скрытое пространство признаков, описывающих одну и ту же форму тела с разных точек зрения в фиксированной позе, а затем изучили модель регрессии из этого скрытого пространства в параметры формы тела. Этот метод также может прогнозировать надежные параметры формы тела для изображений человеческой маски с других точек зрения. На изображении человеческой маски с одним видом, как правило, не хватает некоторой информации о форме тела, например мужского пивного живота, которая не может быть отображена на изображении фронтальной маски.

Чтобы решить эту проблему, Джи и др. [16] разработали новую двухпотоковую сетевую структуру, которая одновременно использует переднюю и боковую маски человека в качестве входных данных для прогнозирования параметров формы SCAPE.

Многие исследователи не только предсказывают форму человеческого тела, многие исследователи используют методы глубокого обучения для оценки формы человеческого тела и позы непосредственно по изображениям [13, 26–28], видео [29, 30].

HMR [26] добавляет ошибку регистрации репроекции точек суставов человека в функцию потерь, чтобы контролировать параметры позы и параметры формы тела SMPL. HMR опирается на идею генеративно-состязательной сети (GAN) [31], добавляя дискриминатор к функции потерь, чтобы контролировать законность прогнозирования параметров человека. Однако этот метод не позволяет эффективно контролировать форму человеческого тела, в результате чего прогнозируемое человеческое тело ближе к средней форме тела, а поза человеческого тела также сильно отличается от человеческого тела на входном изображении.

Павлакос и др. [28] предложили разделить параметры позы и параметры формы тела на две подзадачи для прогнозирования и использовать предсказанную двумерную тепловую карту сустава и контур тела для регрессии параметров позы и параметров формы тела соответственно.

Недавно Сюй и др. [13] новаторски добавили ошибку плотного перепроецирования вершин человеческого меша к функции потерь. Они взяли карту IUV (представляющую соответствие между плотными вершинами сетки и пикселями изображения), предсказанную Densepose [32], в качестве входных данных, регрессировали полученную человеческую сетку, а затем визуализировали предсказанную карту IUV с помощью дифференциального рендерера, и вычисляется ошибка регистрации. с входной картой IUV. Этот метод обеспечивает более точные результаты реконструкции как позы, так и формы тела. Как показано на рисунке 5.

Рисунок 5 Работа Сюй и др. [13]

В следующем выпуске будет представлен непараметрический метод трехмерной реконструкции человека и подробное обсуждение параметрической модели человека SMPL. Друзья, которым это нравится, могут поставить лайк и подписаться.

использованная литература

[1] YE M, YANG R. Real-time simultaneouspose and shape estimation for articulated objects using a single depthcamera[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014: 2345-2352.

[2] ANGUELOV D, SRINIVASAN P, KOLLER D, etal. SCAPE: Shape completion and animation of people[J]. ACM Trans. Graph.,2005, 24(3):408-416.

[3] LOPER M, MAHMOOD N, ROMERO J, et al.Smpl: A skinned multi-person linear model [J]. ACM transactions on graphics(TOG), 2015, 34(6):248.

[4] PAVLAKOS G, CHOUTAS V, GHORBANI N, etal. Expressive body capture: 3d hands, face, and body from a singleimage[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 10975-10985.

[5] HIRSHBERG D A, LOPER M, RACHLIN E, etal. Coregistration: Simultaneous alignment and modeling of articulated 3dshape[C]//European conference on computer vision. Springer, 2012: 242-255.

[6] TSOLI A, MAHMOODN, BLACKM J. Breathinglife into shape: Capturing, modeling and animating 3d human breathing[J]. ACMTransactions on graphics (TOG), 2014, 33(4):1-11.

[7] JAIN A, THORMÄHLEN T, SEIDEL H P, и др. Moviereshape: отслеживание и изменение формы людей в видео[J], ACMTransactions on Graphics (TOG), 2010, 29(6):1-10.

[8] ZHANG Q, FU B, YE M, et al. Qualitydynamic human body modeling using a single lowcost depth camera[C]//Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition. 2014:676-683.

[9] WEISS A, HIRSHBERG D, BLACKM J. Home 3dbody scans from noisy image and range data[C]//2011 International Conference onComputer Vision. IEEE, 2011: 1951-1958.

[10] ZHAO T, LI S, NGAN K N, et al. 3-dreconstruction of human body shape from a single commodity depth camera[J].IEEE Transactions on Multimedia, 2018, 21(1):114-123.

[11] DIBRA E, JAIN H, OZTIRELI C, et al.Hs-nets: Estimating human body shape from silhouettes with convolutional neuralnetworks[C]//2016 fourth international conference on 3D vision (3DV). IEEE,2016: 108-117.

[12] GUAN P, WEISS A, BALAN A O, et al.Estimating human shape and pose from a single image[C]//IEEE InternationalConference on Computer Vision. 2009: 1381-1388.

[13] XUY, ZHUS C,TUNGT. Denserac: Joint 3dpose and shape estimation by dense render-and compare[C]//Proceedings of theIEEE International Conference on Computer Vision. 2019:7760 - 7770.

[14] BOGO F, KANAZAWA A, LASSNER C, et al.Keep it SMPL: Automatic estimation of 3D human pose and shape from a singleimage[C]//European Conference on Computer Vision. 2016: 561-578.

[15] SIGAL L, BALAN A, BLACK M. Combineddiscriminative and generative articulated pose and non-rigid shapeestimation[J]. Advances in neural information processing systems, 2007,20:1337-1344.

[16] JI Z, QI X, WANG Y, et al.Shape-from-mask: A deep learning based human body shape reconstruction frombinary mask images[J]. arXiv preprint arXiv:1806.08485, 2018.

[17] STREUBER S, QUIROS-RAMIREZ M A, HILL MQ, et al. Body talk: Crowdshaping realistic 3d avatars with words[J]. ACMTransactions on Graphics (TOG), 2016, 35(4):1-14.

[18] SEO H, MAGNENAT-THALMANN N. Anexample-based approach to human body manipulation[J]. Graphical Models, 2004,66(1):1-23.

[19] WUHRER S, SHU C. Estimating 3d humanshapes from measurements[J]. Machine vision and applications, 2013,24(6):1133-1147.

[20] АЛЛЕН Б., КУРЛЕСС Б., ПОПОВИЧ З. Пространство форм человеческого тела: реконструкция и параметризация по сканированию диапазонов[J].Транзакции ACM на графике (TOG), 2003, 22 (3): 587-594.

[21] Се Хаоян, Высокоточная 3D-реконструкция человеческого тела и ее применение в виртуальной примерке[D], Университет Дунхуа, 2020. [22] ROTHER C, KOLMOGORVV, BLAKE A. Интерактивное извлечение переднего плана «grabcut» с использованием повторяющихся графических разрезов[ J Транзакции ACM на графике (TOG), 2004, 23(3):309-314.

[23] LASSNER C, ROMERO J, KIEFEL M, et al.Unite the people: Closing the loop between 3D and 2D humanrepresentations[C]//IEEE Conf. on Computer Vision and Pattern Recognition(CVPR). 2017: 6050-6059.

[24] Сюй Хаоцань, Ли Цзитуо, Лу Годун Реконструкция трехмерного человеческого тела по изображению одного платья с помощью LeNet-5 [J] Журнал Чжэцзянского университета, 2021, 55(1):153-161.

[25] DIBRA E, JAIN H, OZTIRELI C, et al.Human shape from silhouettes using generative hks descriptors and cross-modalneural networks[C]//Proceedings of the IEEE conference on computer vision andpattern recognition. 2017: 4826-4836.

[26] KANAZAWAA, BLACKM J, JACOBSDW, et al.End-to-end recovery ofhuman shape and pose[C]//IEEE Conference on ComputerVision and Pattern Recognition. 2018: 7122-7131.

[27] Joo H, Neverova N, Vedaldi A. Exemplarfine-tuning for 3d human pose fitting towards inthe-wild 3d human poseestimation[J]. arXiv preprint arXiv:2004.03686, 2020.

[28] ZIMMERMANN C, BROX T. Learning toestimate 3D hand pose from single RGB images [C]//IEEE International Conferenceon Computer Vision. 2017: 4903-4911.

[29] KOCABAS M,ATHANASIOUN, BLACKM J. Vibe:Video inference for human body pose and shape estimation[C]//Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020:5253-5263.

[30] KANAZAWA A, ZHANG J Y, FELSEN P, etal. Learning 3d human dynamics from video [C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition. 2019: 5614-5623.

[31] GOODFELLOWI J, POUGET-ABADIE J,MIRZAM, et al. Generative adversarial networks [J]. arXiv preprintarXiv:1406.2661, 2014.

[32] GÜLER R A, NEVEROVA N, KOKKINOS I.Densepose: Dense human pose estimation in the wild[C]//IEEE Conference onComputer Vision and Pattern Recognition. 2018: 7297-7306.