Авторы: инженеры-программисты Чунхуи Гу и Дэвид Росс
Обучение машин понимать действия человека в видео — это фундаментальная тема исследований в области компьютерного зрения, необходимая для таких приложений, как персональный поиск и обнаружение видео, анализ движения и жестовые интерфейсы. За последние несколько лет в образеКлассификацияинайти объектБыли сделаны захватывающие прорывы, но распознавание действий человека остается огромной проблемой. Причина в том, что по самой своей природе человеческие действия не так четко определены, как видеообъекты, поэтому сложно создать точно размеченные наборы видеоданных о действиях. Хотя существует множество эталонных наборов данных (например,UCF101,ActivityNetи DeepMindKinetics) принимает модель маркировки классификации изображений и присваивает метку каждому видео или видеоклипу в наборе данных, но нет соответствующего набора данных для сложных сцен с несколькими людьми, выполняющими разные действия.
Чтобы облегчить дальнейшие исследования в области распознавания действий человека, мы выпускаем AVA, основанный на «Атомных визуальных действиях», новый набор данных, который предоставляет несколько меток действий для каждого человека в расширенной видеопоследовательности. AVA состоит из URL-адресов общедоступных видеороликов на YouTube, аннотированных набором из 80 пространственно-временно локализованных атомарных действий (таких как «прогулка», «удар (предмет)», «рукопожатие» и т. д.), в результате чего получается 57 600 видеоклипов, 9,6 10 000 отмеченные исполнители действий и в общей сложности 210 000 тегов действий. вы можете просмотретьВеб-сайт, узнайте о наборах данных и загрузите аннотации, а также прочитайте нашиДокументы arXiv, чтобы понять дизайн и разработку наборов данных.
По сравнению с другими наборами данных действий, AVA имеет следующие важные характеристики:
Чтобы создать AVA, мы сначала собрали разнообразный набор длинного контента с YouTube, ориентированного на категории «кино» и «телевидение», с профессиональными актерами разных национальностей. Мы проанализировали 15-минутные отрезки каждого видео, равномерно разделив их на 300 непересекающихся 3-секундных отрезков. Стратегия выборки удерживает последовательности действий в согласованном временном контексте.
Затем мы вручную определяем ограничивающие рамки для всех в среднем кадре каждого 3-секундного сегмента. Для каждого человека в ограничительной рамке аннотатор выбирает различное количество меток из предопределенного атомарного словаря действий (с 80 категориями), чтобы описать действия человека в сегменте. Эти действия сгруппированы в три группы: поза/движение, взаимодействие человека с объектом и взаимодействие человека с человеком. Поскольку мы исчерпывающе помечаем всех, кто выполняет все действия, AVA Частоты меток следуют распределению с длинным хвостом, которое кратко описано ниже.
Уникальный дизайн AVA позволяет нам получать некоторые интересные статистические данные, которых нет в других существующих наборах данных. Например, если у многих людей есть как минимум два ярлыка, мы можем измерить шаблон совместного появления ярлыков действий. На рисунке ниже показаны наиболее распространенные пары совпадающих действий в AVA и их оценки совмещения. Мы определили ожидаемые закономерности, например, люди часто играют на инструментах во время пения, держат людей, играя с детьми, обнимаются во время поцелуев и т. д.
Чтобы оценить эффективность систем распознавания действий человека в наборе данных AVA, мы реализуем существующую базовую модель глубокого обучения, которая можетНабор данных JHMDBдля лучшей производительности. Из-за сложных вариаций, таких как масштабирование, помехи на заднем плане, изменение фотографии и внешнего вида, эта модель показала умеренные (18,4%) результаты в правильном определении действий в AVA.mAP). Это указывает AVA — полезный испытательный стенд для разработки и оценки новых архитектур и алгоритмов распознавания действий на долгие годы.
Мы надеемся, что AVA поможет улучшить разработку систем распознавания действий человека, которые могут моделировать сложные действия на уровне отдельных действий на основе меток с тонкой пространственно-временной детализацией. Мы продолжим расширять и улучшать AVA и с нетерпением ждем отзывов от сообщества, которые помогут нам в будущем. Пожалуйста, присоединяйтесь к пользователю AVAСписки рассылки, чтобы получать обновления наборов данных и отправлять нам отзывы по электронной почте.
Спасибо
В основную команду AVA входят Чунхуи Гу, Чен Сун, Дэвид Росс, Кэролайн Пантофару, Ецин Ли, Судхендра Виджаянарасимхан, Джордж Тодеричи, Сюзанна Рикко, Рахул Суктанкар, Корделия Шмид и Джитендра Малик. Спасибо многим коллегам из Google и аннотаторам за их полную поддержку этого проекта.
Обучение машин понимать действия человека в видео — это фундаментальная тема исследований в области компьютерного зрения, необходимая для таких приложений, как персональный поиск и обнаружение видео, анализ движения и жестовые интерфейсы. За последние несколько лет в образеКлассификацияинайти объектБыли сделаны захватывающие прорывы, но распознавание действий человека остается огромной проблемой. Причина в том, что по самой своей природе человеческие действия не так четко определены, как видеообъекты, поэтому сложно создать точно размеченные наборы видеоданных о действиях. Хотя существует множество эталонных наборов данных (например,UCF101,ActivityNetи DeepMindKinetics) принимает модель маркировки классификации изображений и присваивает метку каждому видео или видеоклипу в наборе данных, но нет соответствующего набора данных для сложных сцен с несколькими людьми, выполняющими разные действия.
Чтобы облегчить дальнейшие исследования в области распознавания действий человека, мы выпускаем AVA, основанный на «Атомных визуальных действиях», новый набор данных, который предоставляет несколько меток действий для каждого человека в расширенной видеопоследовательности. AVA состоит из URL-адресов общедоступных видеороликов на YouTube, аннотированных набором из 80 пространственно-временно локализованных атомарных действий (таких как «прогулка», «удар (предмет)», «рукопожатие» и т. д.), в результате чего получается 57 600 видеоклипов, 9,6 10 000 отмеченные исполнители действий и в общей сложности 210 000 тегов действий. вы можете просмотретьВеб-сайт, узнайте о наборах данных и загрузите аннотации, а также прочитайте нашиДокументы arXiv, чтобы понять дизайн и разработку наборов данных.
По сравнению с другими наборами данных действий, AVA имеет следующие важные характеристики:
- Аннотация, ориентированная на человека.Каждый тег действия связан с человеком, а не с видео или клипом. Поэтому мы можем назначать разные метки нескольким людям, выполняющим разные действия в одной и той же сцене (что довольно часто).
- Атомное визуальное действие.Мы ограничиваем метки действий небольшим временным интервалом (3 секунды), когда действия носят физический характер с четкими визуальными характеристиками.
- Реалистичный видеоматериал.В качестве источника для AVA мы используем фильмы из самых разных жанров и стран происхождения. Таким образом, данные содержат широкий спектр человеческого поведения.
3-секундный видеоклип (изисточник видео), чей ограничивающий прямоугольник аннотирован в среднем кадре каждого фрагмента. (Для ясности в каждом примере показана только одна ограничивающая рамка.) |
Чтобы создать AVA, мы сначала собрали разнообразный набор длинного контента с YouTube, ориентированного на категории «кино» и «телевидение», с профессиональными актерами разных национальностей. Мы проанализировали 15-минутные отрезки каждого видео, равномерно разделив их на 300 непересекающихся 3-секундных отрезков. Стратегия выборки удерживает последовательности действий в согласованном временном контексте.
Затем мы вручную определяем ограничивающие рамки для всех в среднем кадре каждого 3-секундного сегмента. Для каждого человека в ограничительной рамке аннотатор выбирает различное количество меток из предопределенного атомарного словаря действий (с 80 категориями), чтобы описать действия человека в сегменте. Эти действия сгруппированы в три группы: поза/движение, взаимодействие человека с объектом и взаимодействие человека с человеком. Поскольку мы исчерпывающе помечаем всех, кто выполняет все действия, AVA Частоты меток следуют распределению с длинным хвостом, которое кратко описано ниже.
Распространение этикеток атомарного действия AVA. Метки, показанные на оси x, являются лишь частью нашего словаря. |
Уникальный дизайн AVA позволяет нам получать некоторые интересные статистические данные, которых нет в других существующих наборах данных. Например, если у многих людей есть как минимум два ярлыка, мы можем измерить шаблон совместного появления ярлыков действий. На рисунке ниже показаны наиболее распространенные пары совпадающих действий в AVA и их оценки совмещения. Мы определили ожидаемые закономерности, например, люди часто играют на инструментах во время пения, держат людей, играя с детьми, обнимаются во время поцелуев и т. д.
Наиболее распространенные пары совпадающих действий в AVA. |
Чтобы оценить эффективность систем распознавания действий человека в наборе данных AVA, мы реализуем существующую базовую модель глубокого обучения, которая можетНабор данных JHMDBдля лучшей производительности. Из-за сложных вариаций, таких как масштабирование, помехи на заднем плане, изменение фотографии и внешнего вида, эта модель показала умеренные (18,4%) результаты в правильном определении действий в AVA.mAP). Это указывает AVA — полезный испытательный стенд для разработки и оценки новых архитектур и алгоритмов распознавания действий на долгие годы.
Мы надеемся, что AVA поможет улучшить разработку систем распознавания действий человека, которые могут моделировать сложные действия на уровне отдельных действий на основе меток с тонкой пространственно-временной детализацией. Мы продолжим расширять и улучшать AVA и с нетерпением ждем отзывов от сообщества, которые помогут нам в будущем. Пожалуйста, присоединяйтесь к пользователю AVAСписки рассылки, чтобы получать обновления наборов данных и отправлять нам отзывы по электронной почте.
Спасибо
В основную команду AVA входят Чунхуи Гу, Чен Сун, Дэвид Росс, Кэролайн Пантофару, Ецин Ли, Судхендра Виджаянарасимхан, Джордж Тодеричи, Сюзанна Рикко, Рахул Суктанкар, Корделия Шмид и Джитендра Малик. Спасибо многим коллегам из Google и аннотаторам за их полную поддержку этого проекта.