Резюме|Метод глубокого обучения на основе трехмерного облака точек

глубокое обучение

Автор: Том Харди

Дата: 2020-2-18

источник:Резюме|Метод глубокого обучения на основе трехмерного облака точек

Публичный аккаунт [3D Vision Workshop]: основное внимание уделяется алгоритмам 3D-зрения, SLAM, vSLAM, компьютерному зрению, глубокому обучению, автономному вождению, обработке изображений и обмену техническими галантерейными товарами.

Введение оператора и гостя: оператор является инженером-алгоритмом крупной отечественной фабрики первого уровня и глубоко исследовал 3D-зрение, vSLAM, компьютерное зрение, обработку облака точек, глубокое обучение, автоматическое вождение, обработку изображений, 3D-реконструкцию и другие области. , В число специальных гостей входят отечественные врачи и магистры из известных зарубежных университетов, боссы алгоритмов, работающие в Megvii, SenseTime, Baidu, Ali и т. д. Добро пожаловать на обмен и обучение вместе

предисловие

3D-данные часто могут быть представлены в различных форматах, включая изображения глубины, облака точек, сетки и объемные сетки. В качестве широко используемого формата представления представление облака точек сохраняет исходную геометрическую информацию в трехмерном пространстве без какой-либо дискретизации. Следовательно, это предпочтительное представление для многих приложений, связанных с пониманием сцены, таких как автономное вождение и робототехника. В последние годы технология глубокого обучения стала центром исследований в области компьютерного зрения, распознавания речи, обработки естественного языка, биоинформатики и т. д. Однако глубокое изучение трехмерных облаков точек по-прежнему сталкивается с проблемами небольшого размера набора данных, высокой размерности, неструктурированные и многие другие проблемы трехмерного облака точек. На этой основе в этой статье дается подробное объяснение последних достижений методов глубокого обучения на основе данных облака точек, включая три задачи: классификация трехмерных форм, обнаружение и отслеживание трехмерных объектов и сегментация трехмерного облака точек.

在这里插入图片描述

Распознавание формы трехмерного облака точек

Эти методы обычно сначала изучают вложения для каждой точки, затем используют метод агрегации для извлечения глобальных вложений формы из всего облака точек и, наконец, достигают классификации через несколько полностью связанных слоев. Основываясь на методе изучения признаков в каждой точке, существующую классификацию 3D-форм можно разделить на сети на основе проекций и сети на основе точек. Методы на основе проекций сначала проецируют неструктурированное облако точек в промежуточное каноническое представление, а затем используют хорошо зарекомендовавшие себя 2D или 3D свертки для классификации форм. Напротив, методы на основе точек работают непосредственно с необработанными облаками точек без какой-либо вокселизации или проекции. Точечные методы не вносят явной потери информации и набирают популярность.

Проекционные методы

Эти методы сначала проецируют 3D-объекты на несколько видов, извлекают соответствующие функции вида, а затем объединяют эти функции для точного распознавания объектов. Ключевой задачей является объединение нескольких функций представления в различимое глобальное представление. Эти методы в основном включают:

  1. MVCNN
  2. MHBN
  3. Learning relationships for multi-view 3D object recognition
  4. Volumetric and multi-view CNNs for object classification on 3D data
  5. GVCNN: Groupview convolutional neural networks for 3D shape recognition
  6. Dominant set clustering and pooling for multi-view 3D object recognition
  7. Learning multi-view representation with LSTM for 3D shape recognition and retrieval

Кроме того, существуют некоторые объемные представления трехмерных облаков точек, в том числе:

  1. VoxNet
  2. 3D shapenets: A deep representation for volumetric shapes
  3. OctNet: Learning deep 3D representations at high resolutions
  4. OCNN: Octree-based convolutional neural networks for 3D shape analysis
  5. Pointgrid: A deep network for 3d shape understanding

Точечная сеть

В соответствии с сетевой архитектурой, используемой для поточечного изучения признаков, этот класс методов можно разделить на точечные MLP, сверточные методы, сети на основе графов, сети на основе индексов данных и другие типичные сети. Сводная информация о сети показана в таблице ниже:

在这里插入图片描述

Обнаружение и отслеживание целей в 3D-облаке точек

Обнаружение 3D-объектов

Задача обнаружения 3D-объектов состоит в том, чтобы точно определить местонахождение всех интересующих объектов в заданной сцене. Подобно обнаружению объектов на изображениях, методы обнаружения трехмерных объектов можно разделить на две категории: методы, основанные на предложении области, и методы одиночного снимка.

Для методов на основе региональных предложений: эти методы сначала предлагают несколько регионов (также называемых предложениями), которые могут содержать объекты, а затем извлекают функции региона, чтобы определить метку класса каждого предложения. В соответствии с методами генерации предложений эти методы можно разделить на три категории: методы на основе нескольких представлений, методы на основе сегментации и методы на основе усеченной пирамиды.

在这里插入图片描述

Для однократных методов: эти методы напрямую предсказывают вероятности классов и используют одноэтапную сеть для регрессии трехмерной ограничивающей рамки объектов. Эти методы не требуют предложений регионов и постобработки. Поэтому они могут работать на высокой скорости и идеально подходят для приложений реального времени. В зависимости от типа входных данных их можно разделить на две категории: методы на основе BEV (карта проекции) и методы на основе облака точек.

Сводка по сети двумя способами:

在这里插入图片描述
在这里插入图片描述

Трехмерное отслеживание объектов

Учитывая положение объекта на первом кадре, задача отслеживания объекта состоит в оценке его состояния на последующих кадрах. Поскольку отслеживание 3D-объектов может использовать богатую геометрическую информацию в облаках точек, ожидается, что оно преодолеет недостатки окклюзии, освещения и изменения масштаба, с которыми сталкивается отслеживание 2D-изображений. К основным методам относятся:

  1. Leveraging shape completion for 3D siamese tracking
  2. Context-aware correlation filter tracking
  3. Efficient tracking proposals using 2D-3D siamese networks on lidar
  4. Complexer-YOLO: Real-time 3D object detection and tracking on semantic point clouds

В дополнение к вышеперечисленным методам существуют также некоторые алгоритмы отслеживания, основанные на идее оптического потока. Подобно оценке оптического потока в 2D-видении, существуют различные методы получения полезной информации (например, потока 3D-сцены, пространственно-временной информации) из последовательностей облаков точек, в основном в том числе:

  1. Flownet3D: Learning scene flow in 3D point clouds
  2. FlowNet3D++: Geometric losses for deep scene flow estimation
  3. HPLFlowNet: Hierarchical permutohedral lattice flownet for scene flow estimation on large-scale point clouds
  4. PointRNN: Point recurrent neural network for moving point cloud processing
  5. MeteorNet: Deep learning on dynamic 3D point cloud sequences Just go with the flow: Self-supervised scene flow estimation

Трехмерная сегментация облака точек

Сегментация трехмерного облака точек требует знания глобальной геометрии и мелких деталей каждой точки. В зависимости от детализации сегментации методы сегментации трехмерного облака точек можно разделить на три категории: семантическая сегментация (уровень сцены), сегментация экземпляра (уровень объекта) и сегментация части (уровень части).

Семантическая сегментация

Семантическая сегментация основана на уровне сцены и в основном включает проекционные и точечные методы.

Алгоритмы сегментации для проекции: в основном включает пять методов: многоракурсное представление, сферическое представление, объемное представление, представление пермутоэдральной решетки и гибридное представление.На следующем рисунке показаны последние сети сегментации:

在这里插入图片描述
在这里插入图片描述

Для алгоритма сегментации на основе точек: Сети на основе точек воздействуют непосредственно на нерегулярные облака точек. Однако облака точек неупорядочены и неструктурированы, и прямое применение стандартных CNN невозможно. С этой целью предлагается новаторская PointNet для изучения точечных функций с использованием общего MLP и глобальных функций с использованием функции симметричного объединения. Основываясь на этой идее, более поздние методы можно условно разделить на точечные методы MLP, методы точечной свертки, методы на основе RNN и методы на основе графов. Для последней сети сегментации на основе точек в следующей таблице представлена ​​подробная сводка:

在这里插入图片描述

сегментация экземпляра

По сравнению с семантической сегментацией сегментация экземпляров более сложна, поскольку требует более точных и точных рассуждений о точках. В частности, он должен различать не только семантически разные точки, но и семантически идентичные экземпляры. В целом существующие методы можно разделить на две категории: методы на основе предложений и методы без предложений.

Подход, основанный на предложениях, преобразует проблему сегментации экземпляров в две подзадачи: обнаружение 3D-объектов и предсказание маски экземпляров. В то время как подходы, основанные на предложениях, не имеют модуля обнаружения объектов, вместо этого такие подходы обычно рассматривают сегментацию экземпляра как последующий шаг кластеризации после семантической сегментации. В частности, большинство существующих методов основано на предположении, что точки, принадлежащие одному и тому же экземпляру, должны иметь очень похожие характеристики. Следовательно, эти методы в основном сосредоточены на двух аспектах: обучении отличительным признакам и группировке точек. Сводная информация о сети для двух способов выглядит следующим образом:

在这里插入图片描述

Сегментация части

Сегментация частей трехмерных фигур связана с двумя трудностями. Во-первых, части формы с одним и тем же семантическим обозначением имеют большие геометрические вариации и неоднозначность. Во-вторых, метод должен быть устойчив к шуму и выборке. Существующие алгоритмы в основном включают:

  1. VoxSegNet: Volumetric CNNs for semantic part segmentation of 3D shapes
  2. 3D shape segmentation with projective convolutional networks
  3. SyncSpecCNN: Synchronized spectral CNN for 3D shape segmentation
  4. 3D shape segmentation via shape fully convolutional networks
  5. CoSegNet: Deep co-segmentation of 3D shapes with group consistency loss