Обнаружение 3D-объектов — интерпретация бумаги PartA2

проблема

В отличие от обнаружения 2D-объектов, опорная рамка при обнаружении 3D-объектов содержит много информации, которая может естественным образом обеспечивать маркировку точек переднего плана и даже обеспечивать внутреннее относительное положение каждой точки в опорной рамке. И эта информация очень важна для обнаружения 3D-объектов. Внутреннее относительное положение трехмерной целевой сети включает в себя распределение точек в трехмерной системе отсчета.Такого рода информацию можно легко получить из данных облака точек, и она содержит много информации, но трехмерная граничная сеть никогда не использовала эту информацию. до. Основываясь на этом наблюдении, авторы этой статьи предлагают сети с частичной осведомленностью и частичной агрегацией.

Иллюстрация внутреннего относительного положения. Благодаря этим относительным положениям это может помочь сети лучше предсказывать ограничивающую 3D-рамку.

Решение

Общая структура сети показана на рисунке выше Автор этой статьи разработал сеть U-Net с использованием разреженной свертки. Сеть этой части части Encode-Decode показана на следующем рисунке:

Обратите внимание, что это все еще не то же самое, что во втором, который добавляет часть сети деконволюции. Автор использует эти функции, чтобы сделать две вещи: одна ветвь используется для предсказания категории точки, то есть принадлежит ли она к точке переднего плана или к фоновой точке, а другая ветвь используется для предсказания внутреннего относительного положения точки. точка переднего плана относительно ограничивающей рамки.

Что касается расчета относительного положения внутри точки переднего плана, формула расчета выглядит следующим образом:

в $x^p$ представляет исходные координаты облака точек, $x^c$ Координаты центральной точки представленного ограничивающего прямоугольника. $w,l,h$ Представляет размер ограничивающей трехмерной рамки. В этом случае координаты центральной точки ограничивающей 3D-рамки равны (0,5, 0,5, 0,5). Конечно, если вам нужно вычислить их, вам нужно вычислить потери.Поскольку эти относительные координаты расположены между [0, 1], автор использует бинарную кросс-энтропийную потерю в качестве потери для этой задачи. Метод его расчета следующий:

Для классификации категорий облака точек автор использует потери очага в качестве потерь для этой задачи, а метод расчета следующий:

После выполнения вышеуказанных задач также необходимы некоторые предложения в качестве критериев характеристик точек агрегации на следующем этапе. Автор предлагает два метода: один основан на якорях, а другой — без якорей. Метод на основе привязки аналогичен методу во втором. Этот метод может обеспечить лучший отзыв, но требует больше вычислений и памяти. По сравнению с безанкорным, отзыв хуже, но объем вычислений у него небольшой, а эффективность высокая.Безанкорный может быть похож на метод генерации в pointrcnn.

После создания предложения с использованием двух вышеуказанных методов нам необходимо агрегировать признаки окружающих точек в соответствии с предложением. В этой статье автор предлагает метод агрегации функций с учетом RoI. В отличие от PointRCNN, который просто агрегирует поточечные характеристики, соответствующие предложению, а затем использует PointNet++ для извлечения характеристик этих точек как характеристик предложения. Авторы отмечают, что этот метод имеет некоторые недостатки, с одной стороны, метод теряет многие геометрические черты, а с другой стороны, вызывает неоднозначные выражения в разных предложениях. Его конкретное значение показано на следующем рисунке:

Как видно из рисунка, два прямоугольника с синими точками представляют разные предложения, но они имеют одинаковые агрегированные баллы, что может отрицательно сказаться на последующих последующих задачах. Кроме того, автор не проигнорировал пустой воксель при выполнении агрегации признаков в предложении.

Основываясь на вышеуказанных проблемах, автор предлагает метод агрегации с учетом RoI. Он равномерно делит каждое предложение на фиксированный размер пространства ( $L_x,L_y,L_z$ ) вокселей. использовать $F$ Представляет объект «точка за точкой», расположенный в 3D-вокселе, где объект «точка за точкой» должен быть центральной точкой каждого вокселя, называемого «точка за точкой». использовать $X$ представляет поточечное внутреннее относительное положение, $b$ Указывает на предложение. Пулинг выполняется для каждого вокселя, для признака относительного положения автор использует метод среднего пула, то есть для вокселя признаком вокселя является среднее внутренних взаимных положений точек, находящихся в этом вокселе. значение, семантическая функция использует метод максимального объединения.В отличие от других методов объединения элементов, этот метод объединения в значительной степени сохраняет геометрические элементы в предложении. В то время как другие функции, основанные на местоположении, сохраняют только подмножество семантических функций.

Кроме того, авторы также используют IoU для пересчета оценки ограничивающей рамки, которая рассчитывается следующим образом:

Это немного похоже на согласование с этой миссией.

Эксперимент по абляции

Влияние использования PointNet++ и SparseConvUNet на производительность сети

Как видно из приведенной выше таблицы, использование SparseConvUNet может лучше извлекать особенности сцен облака точек и генерировать предложения более высокого качества.
Сравнение методов объединения на RoI-aware

Первая строка показывает, что для каждого предложения в качестве размера предложения используется средний размер категории, а затем предложение также делится на сетки фиксированного размера. Как видно из результатов в приведенной выше таблице, метод объединения с учетом RoI намного превосходит другую сторону по производительности по сравнению с предложением, использующим средний размер.
Кроме того, авторы также исследуют влияние размера пула в RoI-aware.

Как видно из приведенной выше таблицы, когда размер пула превышает $12 \times 12 \times 12$ , можно получить почти такую же производительность.
Автор также исследует разницу между различными методами извлечения признаков после объединения, то есть использованием полносвязного слоя или разреженного сверточного слоя для извлечения объединенных признаков.

Как видно из приведенной выше таблицы, аналогичную производительность можно получить при использовании разреженной свертки и полносвязных слоев, но точность разреженной свертки выше.
Автор также сравнивает производительность сети на разных этапах.

Как видно из приведенной выше таблицы, первая и вторая строки отражают влияние использования предсказания Part на производительность сети, а первые три и вторые четыре строки показывают эффективность предложенного второго этапа.
Авторы также показывают влияние использования различных показателей в качестве рейтингов NMS на производительность сети.

В таблице показаны баллы с использованием оценки классификации и IoU в качестве ориентира. Как видно из таблицы, использование управляемого метода IoU может значительно улучшить эффективность обнаружения модели. Он улучшается на 0,7 балла. Это чем-то похоже на TOOD показатель.