Чтение литературы по PointNet и расширенное чтение

глубокое обучение

Источник статьи:blog.CSDN.net/Продается ли контрабанда…

在这里插入图片描述

1. Обзор

Адрес статьи: https://arxiv.org/pdf/1612.00593.pdf
Загрузка кода: https://github.com/charlesq34/pointnet
Бумажный каркас: 在这里插入图片描述 Цели исследования:Использование сетей глубокого обучения для обработки трехмерных данных облака точек.

Идеи исследования:Во-первых, инвариантность облака точек к конкретному пространственному преобразованию обеспечивается сетью совмещения, а затем глобальные и локальные признаки соединяются последовательно для всестороннего использования признаков.

Решение:Мы предлагаем PointNet — модель глубокого обучения, которая напрямую обрабатывает трехмерные геометрические данные, такие как облака точек или сетки.

Исследовательский вклад:

  1. Разработана новая архитектура глубокой сети, которая напрямую вводит трехмерные неупорядоченные наборы точек.
  2. Обращайте внимание на инвариантность облаков точек к конкретным пространственным преобразованиям.
  3. Мы покажем, как обучить такую ​​сеть выполнять классификацию трехмерных форм, сегментацию частей формы и задачи семантического анализа сцены.

Экспериментальный набор данных:ModelNet40, ShapeNet, набор данных семантического анализа Stanford 3D

2. Об облаке точек

Понятие облака точек:Облако точек представляет собой массивный набор точек, которые выражают пространственное распределение цели и характеристики поверхности цели в одной и той же системе пространственной отсчета.Он содержит богатую информацию, которая может быть трехмерными координатами X, Y, Z, цветом , значение интенсивности, время и т. д. Облако точек представляет собой длинный список точек (матрица Nx3, где n — количество точек).

Информация, содержащаяся в облаке точек:

  1. Облако точек, полученное по принципу лазерного измерения, включая трехмерные координаты (XYZ) и интенсивность отражения лазера (Intensity), информация об интенсивности связана с материалом поверхности, шероховатостью, направлением угла падения цели, а также с энергией излучения и длиной волны лазера прибора.
  2. Облако точек, полученное по принципу фотограмметрии, включая трехмерные координаты (XYZ) и информацию о цвете (RGB).
  3. Облако точек получается путем объединения принципов лазерного измерения и фотограмметрии, включая трехмерные координаты (XYZ), интенсивность отражения лазера (Intensity) и информацию о цвете (RGB).

Метод обработки облака точек: 在这里插入图片描述

Данные облака точек — это подмножество точек в евклидовом пространстве, имеющее следующие три характеристики:

2.1 Беспорядок

В отличие от массива пикселей в изображении или массива вокселей в объемной сетке, облако точек представляет собой набор точек в произвольном порядке. Данные облака точек представляют собой набор и нечувствительны к порядку данных. Это означает, что модели, обрабатывающие данные облака точек, должны быть инвариантны к различным перестановкам данных.
Методы, используемые в современной литературе, включают:

  1. Переупорядочить неупорядоченные данные.
  2. Выполните увеличение данных со всеми перестановками данных, а затем используйте модель RNN.
  3. Используйте симметричную функцию, чтобы гарантировать инвариантность перестановок.

Из-за простоты третьего метода и его легкой реализации в модели авторы статьи решили использовать третий метод, который заключается в использовании симметричной функции максимального объединения для извлечения признаков данных облака точек.

2.2 Пространственные отношения между точками

Объект обычно состоит из определенного количества облаков точек в определенном пространстве, а это означает, что между этими облаками точек существует пространственная связь. Следовательно, модель должна иметь возможность фиксировать локальную структуру соседних точек, а также комбинаторные взаимодействия между локальными структурами. Чтобы эффективно использовать эти пространственные отношения, авторы статьи предлагают метод объединения локальных и глобальных функций для агрегирования информации.

2.3 Жесткая трансформационная инвариантность

Объекты, представленные данными облака точек, должны быть инвариантны к определенным пространственным преобразованиям, таким как жесткие преобразования, такие как вращение и перемещение. Авторы статьи предлагают способ согласования данных облака точек перед извлечением признаков, чтобы обеспечить неизменность. Операция выравнивания достигается путем обучения небольшой сети для получения матрицы преобразования и умножения ее на входные данные облака точек.

3. Текущие исследования

3.1. Point Cloud Features
Большинство существующих функций облака точек создаются вручную под конкретные задачи. Точечные объекты обычно кодируют статистические свойства определенных точек и разработаны так, чтобы быть инвариантными к определенным преобразованиям, которые обычно классифицируются как внутренние или внешние. Их также можно разделить на локальные особенности и глобальные особенности. Найти оптимальное сочетание функций для конкретной задачи — непростая задача.

3.2. Deep Learning on 3D Data
Существуют различные методы глубокого обучения в зависимости от представления 3D-данных.
Объемные CNN:3D-свертка аналогична 2D-представлению объектов в виде вокселей в пространстве. Однако из-за разреженности данных и вычислительных затрат на 3D-свертку представление вокселов ограничено его временной и пространственной сложностью, что затрудняет обработку очень больших облаков точек и больше не является основным методом.

Мультиракурсные CNN:Путем объединения двухмерных изображений с несколькими представлениями в трехмерные объекты этот метод применяет традиционную CNN к нескольким двумерным изображениям, а функции объединяются с помощью процедуры объединения представлений для формирования трехмерных объектов.

Спектральные CNN:Используйте спектральные CNN на сетках. Однако эти методы в настоящее время ограничены различными сетками, такими как органические объекты, и не очевидно, как их распространить на неизометрические формы, такие как мебель.

DNN на основе признаков:Трехмерные данные сначала преобразуются в векторы путем извлечения традиционных признаков формы, а затем формы классифицируются с использованием полносвязной сети. Мы утверждаем, что они ограничены репрезентативной силой извлеченных признаков.

3.3. Deep Learning on Unordered Sets
С точки зрения структуры данных облако точек представляет собой неупорядоченный набор векторов. В то время как большинство исследований глубокого обучения сосредоточено на регулярных входных данных, таких как последовательности (обработка речи и языка), изображения и объемы (видео или 3D-данные), мало что было сделано для глубокого обучения на наборах точек.
Oriol VinyalsНедавнее исследование et al. Они используют сеть чтения-процесса-записи с механизмом внимания для обработки неупорядоченных входных наборов и демонстрируют, что их сеть способна сортировать числа. Однако, поскольку их работа сосредоточена на общих ансамблях и приложениях НЛП, роль геометрии в ансамблях отсутствует.

В-четвертых, метод этой статьи

Облако точек представлено в виде набора 3D-точек.{Pii=1,...,n}\{P_i | i=1,...,n\}, где каждая точкаPiP_iоба(x,y,z)(х, у, г)Вектор координат плюс дополнительные каналы функций (такие как цвет, нормаль и т. д.). Для простоты и ясности мы используем только(x,y,z)(х, у, г)Координаты как представление точки.

Наша сетевая архитектура была вдохновленаRn\Bbb R^nСвойства набора точек в .

4.1. Rn\Bbb R^nСвойства наборов точек вRn\Bbb R^n)

Наш ввод — это подмножество точек из евклидова пространства. Он имеет три основных свойства:

  1. беспорядок
  2. Пространственные отношения между точками
  3. жесткая трансформационная инвариантность

(Эта часть подробно описана в разделе «2. Об облаке точек»)

4.2 Архитектура PointNet

在这里插入图片描述Оригинальное описание:
Классификационная сеть (синяя часть на рисунке) начинается сnnКаждая точка является входом, применяются входные данные и преобразование признаков, а затем точечные признаки агрегируются методом максимального объединения. выводkkКлассификационный балл для каждого класса. Сеть сегментации (светло-желтая на рисунке) является расширением сети классификации. Он объединяет глобальные и локальные функции и выводит оценки для каждого класса. «MLP» означает многослойный персептрон, а число в скобках — это размер слоя. Пакетная норма используется для всех слоев с RELU. Уровень отсева используется для классификации последнего MLP в сети.

Основными процессами в сети являются:

  1. Входными данными является набор всех данных облака точек кадра, представленный в виде двумерного тензора nx3, где n представляет количество облаков точек, а 3 соответствует координатам xyz.
  2. Входные данные сначала выравниваются путем умножения их на матрицу преобразования, изученную T-Net (входное преобразование), что обеспечивает инвариантность модели к конкретным пространственным преобразованиям.
  3. После извлечения признаков данных каждого облака точек с помощью нескольких mlp T-Net используется для выравнивания признаков (преобразование признаков). Операция максимального объединения выполняется для каждого измерения объекта, чтобы получить окончательный глобальный объект.
  4. Для задач классификации глобальные признаки передаются через mlp, чтобы предсказать окончательную оценку классификации;
  5. Для задачи сегментации глобальные и локальные признаки каждого облака точек, изученные ранее, соединяются последовательно, а затем результаты классификации каждой точки данных получаются с помощью mlp.

Наша сеть состоит из трех ключевых модулей:

  • слой max pooling как симметричная функция, которая агрегирует информацию со всех точек
  • Локальная и глобальная структура композиции информации
  • Две объединенные сети выравнивания, которые одновременно выравнивают входные точки и точечные объекты.

Мы обсуждаем причины такого выбора дизайна в отдельных абзацах ниже:

4.2.1 Функция симметрии для неупорядоченного ввода

Эта часть расположена в сети классификации (синяя часть на рисунке) и составляет основную часть сети классификации. (личное понимание) Как упоминалось ранее, для неупорядоченного ввода методы, используемые в настоящее время в литературе, включают:

  1. Переупорядочить неупорядоченные данные.
  2. Выполните увеличение данных со всеми перестановками данных, а затем используйте модель RNN.
  3. Используйте симметричную функцию, чтобы гарантировать инвариантность перестановки.

В статье отмечается, что метод переупорядочивания неустойчив к точечным возмущениям в многомерном пространстве. Принимая во внимание, что идея использования RNN рассматривает набор точек как последовательный сигнал и надеется, что при обучении RNN со случайно расположенной последовательностью порядок данных будет зафиксирован в порядке ввода,OrderMattersБыло показано, что порядок имеет значение, и от него нельзя полностью отказаться. Хотя RNN относительно устойчивы к упорядочению ввода последовательностей небольшой длины (десятки), их трудно масштабировать до тысяч входных элементов, что является обычным размером для наборов точек.

Чтобы результаты не зависели от порядка расположения входных данных, авторы данной статьи предлагают аппроксимировать общую функцию, определенную на множестве точек, применяя к элементам множества симметричную функцию:

f({x1,...,xn})=g(h(x1),...,h(xn))f(\{x_1,...,x_n\})=g(h(x_1),...,h(x_n))

в,

f:2RNR,h:RNRK,g:RK××RKnRf:2^{\Bbb R^N}\to\Bbb R, h:\Bbb R^N\to\Bbb R^K, g:\underbrace{\Bbb R^K\times···\times\Bbb R^K}_{n}\to\Bbb R

ggявляется симметричной функцией, снабженной комбинацией одномерной функции и функции максимального объединения.hhОснащен многоуровневой сетью персептрона (mlp) для сопоставления данных облака точек с большими размерами.

4.2.2 Локальное и глобальное агрегирование информации

Эта часть представляет собой сегментированную сеть (светло-красная часть на рисунке).
Предыдущий шаг (сеть классификации) выводит вектор[f1,...,fK][f_1,...,f_K], представляет собой глобальную информацию об объектах входных данных облака точек.После вычисления вектора объектов глобального облака точек глобальный объект соединяется с каждым точечным объектом, а затем возвращается к каждому точечному объекту. Затем новые точечные функции извлекаются на основе объединенных точек, так что новые точечные функции знают как локальную, так и глобальную информацию.
Наша сеть способна предсказать количество каждой точки, которая зависит от локальной геометрии и глобальной семантики. Например, мы можем точно предсказать нормаль каждой точки, подтверждая, что сеть способна агрегировать информацию о локальном соседстве из точек. Эксперименты показывают, что модель достигает наилучших результатов как при сегментации формы, так и при сегментации сцены.
Результат нормальной реконструкции PointNet:
在这里插入图片描述

4.2.3 Совместная сеть центровки

Если облако точек подвергается некоторому геометрическому преобразованию (например, жесткому преобразованию), семантическая метка облака точек должна быть инвариантной. Поэтому мы ожидаем, что представление, изученное нашим набором точек, будет инвариантным к этим преобразованиям.
Естественным решением является выравнивание всех входных наборов по пространству норм перед выделением признаков. Как и в случае Макса Джадерберга и соавт.Spatial Transformer Networks, выравнивает 2D-изображения путем сэмплирования и интерполяции и реализует специально созданный слой на графическом процессоре.
Мы предсказываем матрицу аффинного преобразования через крошечную сеть (T-сеть) и применяем это преобразование непосредственно к координатам входных точек. Сама T-net похожа на большую сеть, которая состоит из трех основных модулей: точечно-независимого извлечения признаков, максимального ансамбля и полносвязного. Первая T-сеть принимает необработанное облако точек в качестве входных данных и регрессирует как3×33×3Мини-PointNet матрицы. Состоит из общей сети MLP (64, 128, 1024) в каждой точке (выходной размер слоя 64, 128, 1024), максимального объединения точек и двух полностью связанных слоев с выходным размером 512, 256. Выходная матрица инициализируется единичной матрицей. Все слои, кроме последнего, содержат регенерацию и нормализацию пакетов. Вторая Т-сеть имеет ту же структуру сети, что и первая, за исключением того, что выход представляет собой матрицу 64×64.

Эта идея также может быть дополнительно обобщена на проблему выравнивания пространства признаков. Мы можем вставить другую сеть выравнивания в точечные объекты и предсказать матрицу преобразования объектов, чтобы выровнять объекты из разных входных облаков точек. Однако матрица преобразования в пространстве признаков имеет гораздо большую размерность, чем матрица пространственного преобразования, что значительно увеличивает сложность оптимизации. Поэтому мы добавляем член регуляризации к тренировочным потерям Softmax. Мы ограничиваем матрицу преобразования признаков, чтобы она была почти ортогональной:

Lreg=IAATF2L_{reg} = ||I - AA^T||^2_F

где A - матрица выравнивания признаков, предсказанная T-net. Мы обнаружили, что при добавлении регулярного члена оптимизация стала более стабильной, а наша модель достигла более высокой производительности.

4.3 Теоретический анализ

4.3.1 Способность сети соответствовать функции

Для сети, имеющей дело с облаками точек, из-за непрерывности функции набора небольшое возмущение набора входных точек не должно иметь большого значения для значения функции, такого как оценка классификации или сегментации.

Предполагатьх={S:S[0,1]mandS=n}\chi=\{S:S\subseteq[0,1]^m and |S|=n\}f:хRf:\chi\to\Bbb Rдах\chiпримерно нарасстояние Хаусдорфа dH(,)d_H(·,·)Непрерывная функция множества . То есть в m-мерном евклидовом пространствеϵ>0,Бамбукδ>0\forall\epsilon>0,\exists\delta>0, для любогоS,S'ехS,S^\prime \in \chi,еслиdH(S,S')<δd_H(S,S^\prime)<\delta,ноf(S)f(S')<ϵ|f(S)-f(S^\prime)|<\epsilon.Если в слое максимального объединения достаточно нейронов, т.е.(2.1)(2.1)в формулеKKДостаточно большой, PointNet может вместить произвольные функции.

Далее автор приводит две теоремы:
Theorem 1.
Предполагатьf:хRf:\chi\to\Bbb Rдах\chiэто орасстояние Хаусдорфа dH(,)d_H(·,·)Непрерывная функция множества ,ϵ>0\forall\epsilon>0, существует непрерывная функцияhhи симметричные функцииg(x1,...,xn)=γMAXg(x_1,...,x_n)=\gamma \circ MAX, так что для любогоSехS \in \chi,имеют: ( Примечание:fg=f(g)f \circ g=f(g) )

f(S)γ(MAXi=1,...,n{h(xi)})<ϵ\begin{vmatrix} f(S)-\gamma \left(\underset{i=1,...,n}{MAX}\{h(x_i)\}\right) \end{vmatrix} < \epsilon

в,x1,...,xnx_1,...,x_nдаSSполный список произвольно упорядоченных элементов в ,γ\gammaявляется непрерывной функцией,MAXMAX— векторный оператор максимума, который принимаетnnвектор в качестве входных данных и возвращает новый вектор, содержащий максимальное значение каждого элемента вектора. Эта теорема в основном предназначена для иллюстрации того, что на выразительность сети PointNet влияет размер максимального слоя объединения, т.е.(2.1)(2.1)серединаKK,KKЧем больше сеть, тем сильнее способность выражения.

4.3.2 Стабильность сети

Следующая теорема говорит нам, что небольшое повреждение данных или дополнительные шумовые точки во входном наборе вряд ли изменят выход нашей сети:
Theorem 2.
Предположениеu:хRKu:\chi \to \Bbb R^Kсделатьu=MAXi=1,...,n{h(xi)}u=\underset{i=1,...,n}{MAX}\{h(x_i)\}f=γuf=\gamma\circ u,Так,(a)какCSTNS,ноS,CS,NSх,f(T)=f(S)(a) Если C_S \subseteq T \subseteq N_S, то \forall S,\exist C_S,N_S \subseteq \chi,f(T)=f(S) (b)CSK(б)|C_S|\leq K

(a) Эта теорема утверждает, что для любого набора входных данныхSS, существует минимальное множествоCSC_Sи максимальный наборNSN_S, таким образомCSC_SиNSN_Sлюбой набор междуTT, чьи сетевые выходы обаSSТакой же.
(b) иллюстрирует минимальное множествоCSC_SСколько данных выводится операцией максимального объединения размерности данныхKKдает верхнюю границу. Другими словами, PointNet может суммировать ключевые точки, представляющие форму объекта определенного типа, и PointNet может различать тип объекта на основе этих ключевых точек. Такая возможность определяет устойчивость PointNet к шуму и отсутствию данных.

5. Эксперимент

Эксперимент разделен на четыре части.

  1. Показано, что PointNets можно применять к нескольким задачам трехмерного распознавания.
  2. Подробные эксперименты предоставляются для проверки нашего дизайна сети.
  3. Визуализируйте содержание электронного обучения.
  4. Анализ временной и пространственной сложности.

5.1. Применение

5.1.1 Классификация 3D-объектов
экспериментальная конструкция:
Используя тест классификации форм ModelNet40 (набор данных), состоящий из 12311 моделей САПР из 40 категорий искусственных объектов, разделенных на 9843 для обучения и 2468 для тестирования.
1024 точки на грани сетки равномерно выбираются в соответствии с площадью лица и нормализуются к единичной сфере. Во время обучения облако точек динамически дополняется случайным вращением объектов вдоль верхней оси (ось координат направлена ​​вверх) и изменением положения каждой точки с помощью гауссова шума со средним значением 0 и стандартным отклонением 0,02.

Результаты экспериментов: 在这里插入图片描述Хотя они более продвинуты, чем большинство сетей, и методы, основанные на нескольких представлениях (MVCNN) и пробелы, которые, по мнению авторов, вызваны потерей мелких геометрических деталей, которые могут быть захвачены визуализированными изображениями.

5.1.2 Сегментация частей 3D-объекта
Сегментация деталей — сложная задача мелкозернистого 3D-распознавания. При наличии 3D-скана или модели сетки задача состоит в том, чтобы присвоить метку класса детали (например, ножка стула, ручка чашки) каждой точке или грани.
экспериментальная конструкция:
Мы оцениваем набор данных деталей ShapeNet, который содержит 16 881 фигуру в 16 категориях, в общей сложности 50 аннотированных частей. Большинство категорий объектов имеют от 2 до 5 разделов.
Мы формулируем сегментацию частей как задачу поточечной классификации. Метрика оценки основана на баллах mIoU (среднее пересечение по союзу). Например, для каждой формы S категории C рассчитайте значение mIoU формы: для каждой части категории C рассчитайте IoU (пересечение над объединением) между истинным и предсказанным. Если объединение истинных и предсказанных точек пусто, частичный IoU считается равным 1. Затем мы усредняем IoU всех типов деталей в классе C, чтобы получить mIoU для этой формы. Чтобы вычислить mIoU для этого класса, мы усредняем mIoU всех форм в классе.
Мы сравниваем нашу версию сегментации PointNet (модифицированная версия сети сегментации на диаграмме архитектуры) с двумя традиционными методами.Interactive shape co- segmentation via label propagationиA scalable active framework for region annotation in 3d shape collections(Оба метода используют соответствие между точечными геометрическими элементами и формами) и нашу собственную 3DCNN для сравнения.

Результаты экспериментов:
在这里插入图片描述По сравнению с методом Йи, миллион PointNet улучшает2.3%2.3\%и превосходит 3DCNN в большинстве категорий.
Дополнительный эксперимент:
Также проводятся эксперименты с имитацией сканирования Kinect для проверки надежности этих методов. Для каждой модели CAD в наборе данных частей ShapeNet мы используем Blensor Kinect. Симулятор генерирует неполные облака точек из шести случайных точек обзора. И обучил PointNet с полной формой и частичным сканированием, используя ту же архитектуру сети и настройки обучения. Результат выглядит следующим образом:
在这里插入图片描述MIOU упал всего на 5,3%. Как видно из графика, несмотря на то, что некоторые данные сложны, наши прогнозы разумны.

5.1.3 Семантическая сегментация в сценах
Наша сеть сегментации частей может быть легко расширена до семантической сегментации сцены, где метки точек представляют собой семантические классы объектов, а не метки частей объекта.
экспериментальная конструкция
Мы проводим эксперименты на наборе данных семантического парсинга Stanford 3D, который содержит 3D-сканы 6 регионов (включая 271 помещение) со сканеров Matterport. Каждая точка на скане аннотируется семантической меткой одной из 13 категорий (стул, стол, пол, стена и т. д. плюс всякая мелочь).
Чтобы подготовить обучающие данные, мы сначала разделим точки по комнатам, а затем разделим тестовую комнату на блоки размером 1 м × 1 м. Мы обучаем нашу модифицированную версию PointNet прогнозировать каждый класс точек в каждом блоке. Каждая точка представлена ​​9-мерным вектором относительно XYZ, RGB и нормализованного положения комнаты (от 0 до 1). Во время обучения мы динамически случайным образом выбираем 4096 точек в каждом блоке. При тестировании мы проверяем все точки. мы следуем за3d semantic parsing of large-scale indoor spacesТот же протокол, с использованием k-кратной стратегии для обучения и тестирования.
Мы сравниваем наш метод с базовой линией, используя созданные вручную точечные объекты. Эта базовая линия извлекает те же 9-мерные локальные функции и 3 дополнительных функции: локальную плотность точек, локальную кривизну и нормаль с использованием стандартного MLP в качестве классификатора.

Результаты экспериментов 在这里插入图片描述Как видно из количественных результатов в таблице, производительность метода PointNet значительно лучше, чем у базового метода.在这里插入图片描述На рисунке выше показаны результаты качественной сегментации. Наша сеть способна выводить плавные прогнозы и устойчива к пропущенным точкам и окклюзиям.

5.2 Анализ архитектурного проекта

Эта часть экспериментов подтверждает наш выбор дизайна с помощью контролируемых экспериментов, а также показывает влияние сетевых гиперпараметров.

5.2.1 Сравнение с другими методами, не зависящими от порядка
Этот контрольный эксперимент по-прежнему использует задачу классификации формы ModelNet40 в качестве испытательного стенда для сравнения этих схем.在这里插入图片描述Базовые показатели, которые мы сравнивали, включаютn×3n×3Многослойные персептроны на несортированных и отсортированных точках массива, модели RNN, которые рассматривают входные точки как последовательности, и модели, основанные на симметричных функциях.

Симметричные операции для наших экспериментов включают максимальное объединение, среднее объединение и взвешенные суммы на основе внимания. Метод внимания аналогиченOrder Mattersметод в , где оценки прогнозируются по каждой точечной функции, а затем вычисляется Softmax с помощью1, 2нормализовать баллы по баллам. Затем вычисляется взвешенная сумма по нормализованным оценкам и точечным характеристикам. Как показано на рисунке, операция max pooling обеспечивает наилучшую производительность с большим отрывом, что подтверждает наш выбор.

5.2.2 Эффективность преобразования ввода и признаков 在这里插入图片描述
В таблице выше мы показываем положительный эффект преобразования ввода и признаков (для выравнивания). Видя, что самая базовая архитектура уже дает довольно разумные результаты, использование входных преобразований дает повышение производительности на 0,8%.потеря регуляризациитребуется для работы высокоразмерных преобразований. пройти черезСочетание терминов преобразования и регуляризации, мы получаем лучшую производительность.

5.2.3 Проверка устойчивости 在这里插入图片描述
мы используем с5.2.15.2.1Та же архитектура сети с максимальным объединением, входные точки нормализованы в единичную сферу, и результат показан на рисунке выше. Для недостающих точек, когда есть50%50\%Когда есть пропущенные точки, используется самая дальняя случайная входная выборка, и степень точности только снижается.2.4%2.4\%и3.8%3.8\%. Мы оценили две модели: одну для(x,y,z)(х, у, г)координаты точек для обучения, другой для(x,y,z)(х, у, г)тренировка с точечной плотностью, даже когда2020%Когда точка ненормальна, сеть также имеет8080%точность вышеизложенного.

5.3 Визуализация PointNet

В то время как критические точки коллективно определяют глобальные характеристики формы данной формы, любое облако точек, попадающее между набором критических точек и верхней границей формы, будет обеспечивать точно такие же характеристики. Мы кодируем все числа цветом, чтобы показать информацию о глубине.在这里插入图片描述Изображение выше визуализирует некоторые образцы фигур.SSнабор критических точекCSC_Sи форма верхней границыNSN_S. Набор точек между этими двумя фигурами даст точно такую ​​же глобальную функцию формы.f(S)f(S).
набор критических точекCSC_Sскелет, описывающий форму, верхняя граница формыNSN_SПредставляет заданное и входное облако точекSSта же глобальная функция формыf(S)f(S), что означает, что отсутствие некоторых некритических точек вообще не меняет глобальную форму, что отражает надежность PointNet.

5.4 Анализ временной и пространственной сложности

在这里插入图片描述В приведенной выше таблице суммированы пространственная (количество параметров в сети) и временная (плавающие операции/выборки) сложность PointNet.
Мы также сравниваем PointNet с репрезентативным набором объемных и мультипредставленных архитектур из предыдущей работы.
В то время как MVCNN и Subvolume (3D CNN) достигают высокой производительности, PointNet более эффективен с точки зрения вычислительных затрат (измеряемых в FLOPs/выборке: в 141x и 8x соответственно). Кроме того, в сети#params\#paramsС точки зрения эффективности использования пространства PointNet намного эффективнее, чем MVCNN (в 17 раз меньше параметров).
PointNet более масштабируема, а ее пространственная и временная сложность меньше.O(N)O(N)линейный. Однако, поскольку свертки преобладают во времени вычислений, временная сложность методов с несколькими представлениями растет пропорционально разрешению изображения, в то время как методы на основе объемных сверток растут кубически с размером объема.
Как правило, используя графический процессор 1080X на TensorFlow, PointNet может обрабатывать более миллиона точек в секунду для классификации облака точек (~ 1 тыс. потенциал применения времени.

6. Заключение

В этой работе мы предлагаем PointNet, новую глубокую нейронную сеть для непосредственной обработки облаков точек. Наша сеть обеспечивает унифицированный подход ко многим задачам 3D-распознавания, включая классификацию объектов, сегментацию частей и семантическую сегментацию, при этом достигая сравнимых или лучших результатов по сравнению с современными стандартными эталонными тестами. Мы также предоставляем теоретический анализ и визуализации для понимания наших сетей.