Обнаружение 3D-объектов — интерпретация бумаги PartA2

глубокое обучение

image-20220102191731775

ссылка на код

бумажная ссылка

личный блог

проблема


В отличие от обнаружения 2D-объектов, опорная рамка при обнаружении 3D-объектов содержит много информации, которая может естественным образом обеспечивать маркировку точек переднего плана и даже обеспечивать внутреннее относительное положение каждой точки в опорной рамке. И эта информация очень важна для обнаружения 3D-объектов. Внутреннее относительное положение трехмерной целевой сети включает в себя распределение точек в трехмерной системе отсчета.Такого рода информацию можно легко получить из данных облака точек, и она содержит много информации, но трехмерная граничная сеть никогда не использовала эту информацию. до. Основываясь на этом наблюдении, авторы этой статьи предлагают сети с частичной осведомленностью и частичной агрегацией.

image-20220101213223309

Иллюстрация внутреннего относительного положения. Благодаря этим относительным положениям это может помочь сети лучше предсказывать ограничивающую 3D-рамку.

Решение


image-20220101213507656

Общая структура сети показана на рисунке выше Автор этой статьи разработал сеть U-Net с использованием разреженной свертки. Сеть этой части части Encode-Decode показана на следующем рисунке:

image-20220101213649420

Обратите внимание, что это все еще не то же самое, что во втором, который добавляет часть сети деконволюции. Автор использует эти функции, чтобы сделать две вещи: одна ветвь используется для предсказания категории точки, то есть принадлежит ли она к точке переднего плана или к фоновой точке, а другая ветвь используется для предсказания внутреннего относительного положения точки. точка переднего плана относительно ограничивающей рамки.

Что касается расчета относительного положения внутри точки переднего плана, формула расчета выглядит следующим образом:

image-20220101214310736

вxpx^pпредставляет исходные координаты облака точек,xcx^cКоординаты центральной точки представленного ограничивающего прямоугольника.w,l,hw,l,hПредставляет размер ограничивающей трехмерной рамки. В этом случае координаты центральной точки ограничивающей 3D-рамки равны (0,5, 0,5, 0,5). Конечно, если вам нужно вычислить их, вам нужно вычислить потери.Поскольку эти относительные координаты расположены между [0, 1], автор использует бинарную кросс-энтропийную потерю в качестве потери для этой задачи. Метод его расчета следующий:

image-20220101215007583

Для классификации категорий облака точек автор использует потери очага в качестве потерь для этой задачи, а метод расчета следующий:

image-20220101215050275

После выполнения вышеуказанных задач также необходимы некоторые предложения в качестве критериев характеристик точек агрегации на следующем этапе. Автор предлагает два метода: один основан на якорях, а другой — без якорей. Метод на основе привязки аналогичен методу во втором. Этот метод может обеспечить лучший отзыв, но требует больше вычислений и памяти. По сравнению с безанкорным, отзыв хуже, но объем вычислений у него небольшой, а эффективность высокая.Безанкорный может быть похож на метод генерации в pointrcnn.

После создания предложения с использованием двух вышеуказанных методов нам необходимо агрегировать признаки окружающих точек в соответствии с предложением. В этой статье автор предлагает метод агрегации функций с учетом RoI. В отличие от PointRCNN, который просто агрегирует поточечные характеристики, соответствующие предложению, а затем использует PointNet++ для извлечения характеристик этих точек как характеристик предложения. Авторы отмечают, что этот метод имеет некоторые недостатки, с одной стороны, метод теряет многие геометрические черты, а с другой стороны, вызывает неоднозначные выражения в разных предложениях. Его конкретное значение показано на следующем рисунке:

image-20220101220026051

Как видно из рисунка, два прямоугольника с синими точками представляют разные предложения, но они имеют одинаковые агрегированные баллы, что может отрицательно сказаться на последующих последующих задачах. Кроме того, автор не проигнорировал пустой воксель при выполнении агрегации признаков в предложении.

Основываясь на вышеуказанных проблемах, автор предлагает метод агрегации с учетом RoI. Он равномерно делит каждое предложение на фиксированный размер пространства (Lx,Ly,LzL_x,L_y,L_z) вокселей. использоватьFFПредставляет объект «точка за точкой», расположенный в 3D-вокселе, где объект «точка за точкой» должен быть центральной точкой каждого вокселя, называемого «точка за точкой». использоватьXXпредставляет поточечное внутреннее относительное положение,bbУказывает на предложение. Пулинг выполняется для каждого вокселя, для признака относительного положения автор использует метод среднего пула, то есть для вокселя признаком вокселя является среднее внутренних взаимных положений точек, находящихся в этом вокселе. значение, семантическая функция использует метод максимального объединения.В отличие от других методов объединения элементов, этот метод объединения в значительной степени сохраняет геометрические элементы в предложении. В то время как другие функции, основанные на местоположении, сохраняют только подмножество семантических функций.

Кроме того, авторы также используют IoU для пересчета оценки ограничивающей рамки, которая рассчитывается следующим образом:

image-20220101221250923

Это немного похоже на согласование с этой миссией.


Эксперимент по абляции


  1. Влияние использования PointNet++ и SparseConvUNet на производительность сети

    image-20220102160939630

    Как видно из приведенной выше таблицы, использование SparseConvUNet может лучше извлекать особенности сцен облака точек и генерировать предложения более высокого качества.

  2. Сравнение методов объединения на RoI-aware

    image-20220102182903804

    Первая строка показывает, что для каждого предложения в качестве размера предложения используется средний размер категории, а затем предложение также делится на сетки фиксированного размера. Как видно из результатов в приведенной выше таблице, метод объединения с учетом RoI намного превосходит другую сторону по производительности по сравнению с предложением, использующим средний размер.

  3. Кроме того, авторы также исследуют влияние размера пула в RoI-aware.

    image-20220102183320311

    Как видно из приведенной выше таблицы, когда размер пула превышает12×12×1212 \times 12 \times 12, можно получить почти такую ​​же производительность.

  4. Автор также исследует разницу между различными методами извлечения признаков после объединения, то есть использованием полносвязного слоя или разреженного сверточного слоя для извлечения объединенных признаков.

    image-20220102183535797

    Как видно из приведенной выше таблицы, аналогичную производительность можно получить при использовании разреженной свертки и полносвязных слоев, но точность разреженной свертки выше.

  5. Автор также сравнивает производительность сети на разных этапах.

    image-20220102183910218

    Как видно из приведенной выше таблицы, первая и вторая строки отражают влияние использования предсказания Part на производительность сети, а первые три и вторые четыре строки показывают эффективность предложенного второго этапа.

  6. Авторы также показывают влияние использования различных показателей в качестве рейтингов NMS на производительность сети.

    image-20220102184113520

    В таблице показаны баллы с использованием оценки классификации и IoU в качестве ориентира. Как видно из таблицы, использование управляемого метода IoU может значительно улучшить эффективность обнаружения модели. Он улучшается на 0,7 балла. Это чем-то похоже на TOOD показатель.