Видео введение:MediaPipe Holistic — одновременное предсказание лица, руки и позы на устройстве
Одновременное восприятие в режиме реального времени позы человека, ориентиров лица и отслеживания рук на мобильных устройствах позволяет использовать множество эффективных приложений, таких как фитнес и анализ движения, управление жестами и распознавание языка жестов, эффекты дополненной реальности и многое другое. MediaPipe, платформа с открытым исходным кодом, предназначенная для сложных перцептивных конвейеров, использующих ускоренный вывод (например, GPU или CPU), уже обеспечивает быстрые, точные, но автономные решения для этих задач. Объединение их всех в режиме реального времени в семантически непротиворечивое комплексное решение — уникальная задача, требующая одновременного анализа нескольких связанных нейронных сетей.
Сегодня мы рады объявить MediaPipe Holistic, решение этой проблемы, которое предоставляет новую, современную топологию человеческих поз, которая открывает новые варианты использования. MediaPipe Holistic включает в себя новый конвейер с оптимизированными компонентами позы, лица и руки, каждый из которых работает в режиме реального времени с минимальной передачей памяти между серверами логического вывода, а также добавлена поддержка взаимозаменяемости трех компонентов, в частности, в зависимости от компромисса между качеством и скоростью. Когда включены все три компонента, MediaPipe Holistic обеспечивает унифицированную топологию для новаторских 540+ ключевых точек (33 позы, 21 одна рука и 468 ориентиров лица) и обеспечивает работу практически в реальном времени на мобильных устройствах. MediaPipe полностью выпускается как часть MediaPipe, доступного на мобильных устройствах (Android, iOS) и настольных компьютерах. Мы также представили новые готовые API для MediaPipe for Research (Python) и Интернета (JavaScript), чтобы упростить доступ к технологии.
Сантехника и качество
Целостный конвейер MediaPipe объединяет отдельные модели компонентов позы, лица и руки, каждый из которых оптимизирован для своей конкретной области. Однако из-за их разной специализации ввод одного компонента не подходит для других компонентов. Например, модели оценки позы используют в качестве входных данных видеокадры с более низким фиксированным разрешением (256x256). Однако, если области рук и лица нужно было обрезать из этого изображения, чтобы передать их соответствующим моделям, разрешение изображения было бы слишком низким для точного представления. Поэтому мы разрабатываем MediaPipe Holistic как многоэтапный конвейер, который обрабатывает различные регионы с разрешением изображения, соответствующим региону.
Во-первых, MediaPipe Holistic оценивает позу человека, используя детектор позы BlazePose и последующую модель ключевых точек. Затем, используя предполагаемые ключевые точки позы, он получает три области интереса (ROI) для каждой руки (2x) и лица и использует модель повторной обрезки для улучшения ROI (подробности ниже). Затем конвейер обрезает входные кадры с полным разрешением до этих областей интереса и применяет модели лица и руки для конкретной задачи для оценки соответствующих ключевых точек. Наконец, все ключевые точки объединяются с ключевыми точками модели позы, чтобы получить более 540 ключевых точек.
Чтобы упростить распознавание ROI, используется канал метода отслеживания, аналогичный отдельному лицу и руке. Этот метод предполагает, что объект существенно не перемещается между кадрами, используя оценку из предыдущего кадра в качестве ориентира для области объекта в текущем кадре. Однако при быстром движении трекер может потерять цель, что требует от детектора ее изменения положения на изображении. MediaPipe Holistic использует прогнозирование положения (в каждом кадре) в качестве дополнительной области интереса, чтобы сократить время отклика канала, когда он реагирует на быстрое движение. Это также позволяет перепутать модель, не допуская попадания левой и правой руки или части тела человека в кадр, тем самым сохраняя семантическую согласованность всего тела и его части.
Кроме того, разрешение входных кадров для модели позы достаточно низкое, поэтому ROI лиц и рук все еще слишком неточны, чтобы управлять повторной обрезкой этих областей, что требует точной входной обрезки, чтобы оставаться легким. Чтобы закрыть этот пробел в точности, мы повторно обрезаем модели с облегченными лицами и руками, которые действуют как преобразователи пространства и тратят лишь около 10% времени вывода соответствующих моделей.
спать
Отслеживание конвейера (базовый уровень) 9,8% 3,1%
Без трубопровода повторного посева 11,8% 3,5%
Трубка с повторным посевом 9,7% 3,1%
представление
MediaPipe Holistic требует координации до 8 моделей на кадр — 1 детектор позы, 1 модель ориентира позы, 3 модели повторной обрезки и 3 модели рук и лица в ключевых точках. При построении этого решения мы оптимизировали не только модель машинного обучения, но и алгоритмы пре- и постобработки (такие как аффинные преобразования), которые занимают много времени на большинстве устройств из-за сложности конвейера. В этом случае перенос всех вычислений предварительной обработки на графический процессор привел к общему ускорению конвейера примерно в 1,5 раза, в зависимости от устройства. В результате MediaPipe Holistic работает с производительностью, близкой к реальному времени, даже на устройствах среднего класса и в браузерах.
телефонный шутер от первого лица
Google Пиксель 2XL 18
Самсунг С9+ 20
15-дюймовый MacBook Pro 2017 г. 15
Многоступенчатый характер конвейера обеспечивает два других преимущества производительности. Поскольку модели в основном автономны, их можно заменить на более легкие или более тяжелые версии (или полностью отключить) в зависимости от требований к производительности и точности. Кроме того, после того как поза выведена, точно известно, находятся ли руки и лицо в границах кадра, что позволяет конвейеру пропустить выводы для этих частей тела.
применение
MediaPipe Holistic с более чем 540 ключевыми точками разработан для обеспечения целостного синхронизированного восприятия языка тела, жестов и выражений лица. Его гибридный подход поддерживает удаленные интерфейсы жестов, а также дополненную реальность всего тела, анализ движения и распознавание языка жестов. Чтобы продемонстрировать качество и производительность MediaPipe Holistic, мы создали простой интерфейс удаленного управления, который изначально запускается в браузере и поддерживает взаимодействие с пользователем без использования мыши или клавиатуры. Пользователи могут манипулировать объектами на экране, печатать на виртуальной клавиатуре, сидя на диване, а также указывать или касаться определенных областей лица (например, отключать звук или камеру). Под ним полагается на точное обнаружение руки, а последующее распознавание жестов сопоставляется с пространством «трекпада», закрепленным на плече пользователя, что позволяет дистанционно управлять на расстоянии до 4 метров.
Эта технология управления жестами может открыть множество новых вариантов использования, когда другие способы взаимодействия человека с машиной неудобны. Попробуйте это в нашей веб-демонстрации и используйте для прототипирования собственных идей.
MediaPipe для исследований и Интернета
Чтобы ускорить исследования машинного обучения и его внедрение в сообщество веб-разработчиков, MediaPipe теперь предлагает готовые к использованию, но настраиваемые решения машинного обучения на Python и JavaScript. Начнем с тех, что были в предыдущих публикациях: Face Mesh, Hands и Pose, включая MediaPipe Holistic и многих других. Попробуйте их прямо в веб-браузере: для Python с помощью записных книжек в MediaPipe в Google Colab и для JavaScript с использованием собственной веб-камеры в MediaPipe на CodePen!
в заключении
Мы надеемся, что выпуск MediaPipe Holistic вдохновит членов научно-исследовательского сообщества на создание новых уникальных приложений. Мы ожидаем, что эти конвейеры откроют путь для будущих исследований в таких сложных областях, как распознавание языка жестов, бесконтактные интерфейсы управления или другие сложные варианты использования. Мы с нетерпением ждем возможности увидеть, что вы можете построить с его помощью!
Инструкции по обновлению: Приоритет отдается обновлению общедоступной учетной записи WeChat «Блог дождливой ночи», а блог будет обновлен позже, а затем будет распространен на различные платформы.Если вы хотите узнать больше заранее, обратите внимание на Публичный аккаунт WeChat «Блог дождливой ночи».
Источник блога:Блог Дождливой ночи