Анонс набора данных Objectron

машинное обучение глубокое обучение
Анонс набора данных Objectron

Видео введение:Анонс набора данных Objectron

Современные технологии машинного обучения (МО) позволили достичь поразительной точности во многих задачах компьютерного зрения, просто обучая модели на фотографиях. Опираясь на эти успехи и улучшая понимание 3D-объектов, есть большой потенциал для поддержки более широких приложений, таких как дополненная реальность, робототехника, автономия и поиск изображений. Например, ранее в этом году мы выпустили MediaPipe Objectron, набор моделей обнаружения 3D-объектов в реальном времени, предназначенных для мобильных устройств, которые обучаются на полностью аннотированных наборах реальных 3D-данных для прогнозирования ограничивающих 3D-рамок объектов.

Однако по сравнению с 2D-задачами, такими как ImageNet, COCO и Open Images, понимание 3D-объектов остается сложной задачей из-за отсутствия больших наборов данных реального мира. Чтобы исследовательское сообщество могло продолжать продвигаться в понимании 3D-объектов, существует настоятельная необходимость в выпуске объектно-ориентированных наборов видеоданных, которые фиксируют 3D-структуру большего количества объектов, при этом сопоставляя форматы данных, используемые для многих задач машинного зрения (например, поток видео или видео с камеры). ), чтобы помочь в обучении и тестировании моделей машинного обучения.

Сегодня мы рады представить набор данных Objectron — набор коротких объектно-ориентированных видеоклипов, в которых более распространенные объекты запечатлены под разными углами. Каждый видеоклип сопровождается метаданными сеанса AR, которые включают позы камеры и разреженные облака точек. Данные также содержат аннотированные вручную трехмерные ограничивающие рамки для каждого объекта, которые описывают местоположение, ориентацию и размеры объекта. Набор данных состоит из 15 тысяч аннотированных видеоклипов, дополненных более чем 4 миллионами аннотированных изображений, собранных из географически разнообразной выборки, охватывающей 10 стран на пяти континентах.

image.png

Решения для обнаружения 3D-объектов

В дополнение к набору данных мы также делимся решениями по обнаружению 3D-объектов для четырех классов объектов — обуви, стульев, чашек и камер. Модели опубликованы в MediaPipe, платформе Google с открытым исходным кодом для кросс-платформенных настраиваемых решений машинного обучения для работы в режиме реального времени и потокового мультимедиа, которая также поддерживает такие решения машинного обучения, как отслеживание положения рук, радужной оболочки глаза и тела на устройстве в режиме реального времени.

image.png

По сравнению с ранее выпущенной одноступенчатой ​​моделью Objectron, в этих последних версиях используется двухступенчатая архитектура. На первом этапе используется модель обнаружения объектов TensorFlow для поиска 2D-отсечений объектов. Затем на втором этапе кадрирование изображения используется для оценки ограничительной 3D-рамки при вычислении кадрирования 2D-объекта для следующего кадра, поэтому детектору объектов не нужно запускать каждый кадр. Второй этап 3D-предсказателя ограничительной рамки работает со скоростью 83 кадра в секунду на мобильном графическом процессоре Adreno 650.

file

Метрики оценки для обнаружения 3D-объектов

Используя наземные аннотации, мы оцениваем производительность моделей обнаружения 3D-объектов, используя статистику подобия 3D Intersection of Union (IoU), общую метрику для задач компьютерного зрения, которая измеряет, насколько близка ограничивающая рамка к наземной истине.

Мы предлагаем алгоритм вычисления точных значений 3D IoU для общих 3D-ориентированных коробок. Во-первых, мы вычисляем пересечение между гранями двух ящиков, используя алгоритм отсечения полигонов Сазерленда-Ходжмана. Это похоже на отбраковку усеченной пирамиды, технику, используемую в компьютерной графике. Объем пересечения вычисляется из выпуклой оболочки всех отсеченных полигонов. Наконец, IoU рассчитывается из объема пересечения и объема объединения двух блоков. Мы выпустим исходный код показателей оценки вместе с набором данных.

image.png

Формат набора данных

Технические детали набора данных Objectron, включая использование и учебные пособия, можно найти на веб-сайте набора данных. Набор данных включает в себя велосипеды, книги, бутылки, камеры, коробки с хлопьями, стулья, чашки, ноутбуки и обувь и хранится в корзине объектов в хранилище Google Cloud, которое содержит следующие активы:

  • видеоряд
  • Метки аннотаций (3D ограничивающие рамки объектов)
  • Метаданные дополненной реальности (такие как поза камеры, облако точек и плоскость)
  • Обработанный набор данных: перемешанная версия аннотированных кадров, изображения в формате tf.example, видео в формате SequenceExample.
  • Сценарий поддержки запускает оценку на основе вышеуказанных показателей.
  • Скрипты, поддерживающие загрузку данных в Tensorflow, PyTorch и Jax и визуализацию наборов данных, включая примеры «Hello World».

Для наборов данных мы также открыли конвейер данных для анализа наборов данных в популярных платформах Tensorflow, PyTorch и Jax. Также предоставляются образцы блокнотов для совместной работы.

Выпуская этот набор данных Objectron, мы надеемся, что исследовательское сообщество сможет расширить границы геометрического понимания трехмерных объектов. Мы также надеемся продвигать новые исследования и приложения, такие как синтез представлений, улучшенные трехмерные представления и обучение без учителя.

Инструкции по обновлению: Приоритет отдается обновлению общедоступной учетной записи WeChat «Блог дождливой ночи», а блог будет обновлен позже, а затем будет распространен на различные платформы.Если вы хотите узнать больше заранее, обратите внимание на Публичный аккаунт WeChat «Блог дождливой ночи».

Источник блога:Блог Дождливой ночи