Опубликовано AVA: точно размеченный набор видеоданных для понимания действий человека

Google машинное обучение искусственный интеллект
Опубликовано AVA: точно размеченный набор видеоданных для понимания действий человека
Авторы: инженеры-программисты Чунхуи Гу и Дэвид Росс

Обучение машин понимать действия человека в видео — это фундаментальная тема исследований в области компьютерного зрения, необходимая для таких приложений, как персональный поиск и обнаружение видео, анализ движения и жестовые интерфейсы. За последние несколько лет в образеКлассификацияинайти объектБыли сделаны захватывающие прорывы, но распознавание действий человека остается огромной проблемой. Причина в том, что по самой своей природе человеческие действия не так четко определены, как видеообъекты, поэтому сложно создать точно размеченные наборы видеоданных о действиях. Хотя существует множество эталонных наборов данных (например,UCF101,ActivityNetи DeepMindKinetics) принимает модель маркировки классификации изображений и присваивает метку каждому видео или видеоклипу в наборе данных, но нет соответствующего набора данных для сложных сцен с несколькими людьми, выполняющими разные действия.

Чтобы облегчить дальнейшие исследования в области распознавания действий человека, мы выпускаем AVA, основанный на «Атомных визуальных действиях», новый набор данных, который предоставляет несколько меток действий для каждого человека в расширенной видеопоследовательности. AVA состоит из URL-адресов общедоступных видеороликов на YouTube, аннотированных набором из 80 пространственно-временно локализованных атомарных действий (таких как «прогулка», «удар (предмет)», «рукопожатие» и т. д.), в результате чего получается 57 600 видеоклипов, 9,6 10 000 отмеченные исполнители действий и в общей сложности 210 000 тегов действий. вы можете просмотретьВеб-сайт, узнайте о наборах данных и загрузите аннотации, а также прочитайте нашиДокументы arXiv, чтобы понять дизайн и разработку наборов данных.

По сравнению с другими наборами данных действий, AVA имеет следующие важные характеристики:
  • Аннотация, ориентированная на человека.Каждый тег действия связан с человеком, а не с видео или клипом. Поэтому мы можем назначать разные метки нескольким людям, выполняющим разные действия в одной и той же сцене (что довольно часто).
  • Атомное визуальное действие.Мы ограничиваем метки действий небольшим временным интервалом (3 секунды), когда действия носят физический характер с четкими визуальными характеристиками.
  • Реалистичный видеоматериал.В качестве источника для AVA мы используем фильмы из самых разных жанров и стран происхождения. Таким образом, данные содержат широкий спектр человеческого поведения.
3-секундный видеоклип (изисточник видео), чей ограничивающий прямоугольник аннотирован в среднем кадре каждого фрагмента. (Для ясности в каждом примере показана только одна ограничивающая рамка.)



Чтобы создать AVA, мы сначала собрали разнообразный набор длинного контента с YouTube, ориентированного на категории «кино» и «телевидение», с профессиональными актерами разных национальностей. Мы проанализировали 15-минутные отрезки каждого видео, равномерно разделив их на 300 непересекающихся 3-секундных отрезков. Стратегия выборки удерживает последовательности действий в согласованном временном контексте.

Затем мы вручную определяем ограничивающие рамки для всех в среднем кадре каждого 3-секундного сегмента. Для каждого человека в ограничительной рамке аннотатор выбирает различное количество меток из предопределенного атомарного словаря действий (с 80 категориями), чтобы описать действия человека в сегменте. Эти действия сгруппированы в три группы: поза/движение, взаимодействие человека с объектом и взаимодействие человека с человеком. Поскольку мы исчерпывающе помечаем всех, кто выполняет все действия, AVA Частоты меток следуют распределению с длинным хвостом, которое кратко описано ниже.
Распространение этикеток атомарного действия AVA. Метки, показанные на оси x, являются лишь частью нашего словаря.

Уникальный дизайн AVA позволяет нам получать некоторые интересные статистические данные, которых нет в других существующих наборах данных. Например, если у многих людей есть как минимум два ярлыка, мы можем измерить шаблон совместного появления ярлыков действий. На рисунке ниже показаны наиболее распространенные пары совпадающих действий в AVA и их оценки совмещения. Мы определили ожидаемые закономерности, например, люди часто играют на инструментах во время пения, держат людей, играя с детьми, обнимаются во время поцелуев и т. д.
Наиболее распространенные пары совпадающих действий в AVA.

Чтобы оценить эффективность систем распознавания действий человека в наборе данных AVA, мы реализуем существующую базовую модель глубокого обучения, которая можетНабор данных JHMDBдля лучшей производительности. Из-за сложных вариаций, таких как масштабирование, помехи на заднем плане, изменение фотографии и внешнего вида, эта модель показала умеренные (18,4%) результаты в правильном определении действий в AVA.mAP). Это указывает AVA — полезный испытательный стенд для разработки и оценки новых архитектур и алгоритмов распознавания действий на долгие годы.

Мы надеемся, что AVA поможет улучшить разработку систем распознавания действий человека, которые могут моделировать сложные действия на уровне отдельных действий на основе меток с тонкой пространственно-временной детализацией. Мы продолжим расширять и улучшать AVA и с нетерпением ждем отзывов от сообщества, которые помогут нам в будущем. Пожалуйста, присоединяйтесь к пользователю AVAСписки рассылки, чтобы получать обновления наборов данных и отправлять нам отзывы по электронной почте.

Спасибо
В основную команду AVA входят Чунхуи Гу, Чен Сун, Дэвид Росс, Кэролайн Пантофару, Ецин Ли, Судхендра Виджаянарасимхан, Джордж Тодеричи, Сюзанна Рикко, Рахул Суктанкар, Корделия Шмид и Джитендра Малик. Спасибо многим коллегам из Google и аннотаторам за их полную поддержку этого проекта.