Разработка автоматического распознавания языка жестов в режиме реального времени для видеоконференций

машинное обучение глубокое обучение
Разработка автоматического распознавания языка жестов в режиме реального времени для видеоконференций

Видеоконференции должны быть доступны всем, включая пользователей, которые общаются на языке жестов. Однако, поскольку окно перехода большинства приложений для видеоконференций ориентировано на человека, говорящего вслух, подписывающим трудно «говорить», чтобы они могли общаться легко и эффективно. Включение распознавания языка жестов в режиме реального времени в видеоконференциях является сложной задачей, поскольку приложению необходимо использовать большое количество видеоисточников в качестве входных данных для выполнения классификации, что делает задачу дорогостоящей в вычислительном отношении. Отчасти из-за этих проблем исследования по обнаружению языка жестов очень ограничены.

В «Оценке позы человека с использованием определения языка для регистрации в реальном времени», представленной на SLRTP2020 и представленной во всем мире на ECCV2020, мы предлагаем модель обнаружения языка жестов в реальном времени и демонстрируем, как ее можно использовать для обеспечения механизма для систем видеоконференцсвязи для идентификации люди, говорящие с подписью лица, удостоверяющего личность.

наша модель

Чтобы предоставить работающие в режиме реального времени решения для различных приложений для видеоконференций, нам необходимо разработать облегченную модель, которую легко «подключи и работай». Предыдущие попытки интегрировать модели приложений видеоконференцсвязи на стороне клиента продемонстрировали важность упрощенных моделей, которые потребляют меньше циклов ЦП, чтобы свести к минимуму влияние на качество связи. Чтобы уменьшить размерность ввода, мы изолируем информацию, необходимую модели, от видео, чтобы классифицировать каждый кадр.

Поскольку язык жестов включает в себя тело и руки пользователя, мы сначала запускаем модель оценки позы PoseNet. Это значительно сокращает входные данные от всего HD-изображения до небольшой части ориентиров на теле пользователя, включая глаза, нос, плечи, руки и т. д. Мы используем эти ориентиры для расчета оптического потока от кадра к кадру, количественно оценивая действия пользователя для использования моделью, не сохраняя информацию, специфичную для пользователя. Каждая поза нормализована по ширине плеч человека, чтобы гарантировать, что модель заботится о человеке, который подписывает на определенном расстоянии от камеры. Затем оптический поток нормализуется по частоте кадров видео перед передачей в модель.

Чтобы протестировать этот подход, мы использовали корпус немецкого языка жестов (DGS), который содержит длинные видеоролики, на которых люди поют, с аннотациями, указывающими, в каких кадрах происходит подписание. В качестве простой основы мы обучаем модель линейной регрессии прогнозировать, когда человек подписывает, используя данные оптического потока. Этот базовый уровень обеспечивает точность около 80%, используя всего около 3 микросекунд (0,000003 секунды) времени обработки на кадр. Используя оптический поток первых 50 кадров в качестве контекста линейной модели, можно достичь 83,4%.

Чтобы обобщить использование контекста, мы использовали архитектуру долговременной кратковременной памяти (LSTM), которая содержит память из предыдущих временных шагов, но без возврата. Используя однослойный LSTM, за которым следует линейный слой, модель достигла точности 91,5% со временем обработки 3,5 мс (0,0035 с) на кадр.

доказательство концепции

Как только у нас появится эффективная модель обнаружения языка жестов, нам нужно разработать способ ее использования для запуска функции активного говорящего в приложении для видеоконференций. Мы разработали облегченную веб-демонстрацию распознавания жестового языка в режиме реального времени, которая подключается к различным приложениям для видеоконференций и может быть установлена ​​в качестве «динамика», когда пользователь подписывает. В этой демонстрации используется быстрая оценка позы человека PoseNet и модель обнаружения языка жестов, работающая в браузере с использованием tf.js, что позволяет надежно работать в режиме реального времени.

Когда модель обнаружения языка жестов определяет, что пользователь подписывает, она передает ультразвуковой звук через виртуальный аудиокабель, который может обнаружить любое приложение для видеоконференций, как если бы подписывающий пользователь «говорил». Звук передается на частоте 20 кГц, что обычно находится за пределами человеческого слуха. Поскольку приложения для видеоконференций часто определяют громкость звука как речь, а не просто речь, это вводит приложение в заблуждение, заставляя его думать, что говорит пользователь.

Вы можете попробовать нашу экспериментальную демоверсию уже сегодня! По умолчанию демо действует как детектор языка жестов. Учебный код и модель, а такжеВеб-демонстрация Исходный код доступен на GitHub.

демо

В видео ниже мы демонстрируем, как использовать модель. Обратите внимание на желтый график в верхнем левом углу, который отражает уверенность модели в обнаружении того, что действие действительно связано с языком жестов. Когда пользователь подписывает, значение графика увеличивается почти до 100, а когда он перестает подписывать, оно падает до нуля. Этот процесс происходит в режиме реального времени со скоростью 30 кадров в секунду, что является максимальной частотой кадров используемой камеры.

Обратная связь с клиентом

Чтобы лучше понять, как демо работает на практике, мы провели исследование пользовательского опыта, в ходе которого участников попросили использовать нашу экспериментальную демоверсию во время видеоконференции и общаться на языке жестов, как обычно. Их также попросили подписать друг друга, и они проверили поведение переключения говорящих участников. Участники ответили положительно, язык жестов был обнаружен и обработан как слышимая речь, а демонстрация успешно идентифицировала участника, использующего жесты, и активировала значок аудиометра конференц-системы, чтобы привлечь внимание к посетителю, использующему жесты.

в заключении

Мы считаем, что приложения для видеоконференций должны быть доступны каждому, и надеемся, что эта работа станет важным шагом в этом направлении. Мы показали, как можно использовать нашу модель, чтобы сделать видеоконференцсвязь более удобной для подписантов.


Инструкции по обновлению: Сначала обновите веб-сайт «Блог дождливой ночи», а затем обновите паблик-аккаунт WeChat «Блог дождливой ночи», а затем распространяйте его на различные платформы одну за другой. Если вы хотите узнать больше заранее, обратите внимание на публичный аккаунт WeChat «Блог дождливой ночи».

Источник блога:Блог Дождливой ночи