Обнаружение 3D-объектов Интерпретация бумаги 3D IoU-Net

искусственный интеллект алгоритм

image-20220113193045205

ссылка на код

бумажная ссылка

личный блог

проблема

Эта статья сначала иллюстрирует проблему, заключающуюся в том, что NMS является очень важным процессом постобработки для удаления дубликатов в результатах прогнозирования. Некоторые исследования показали, что использование долговых расписок в качестве критерия сортировки в NMS позволяет достичь лучших результатов. Здесь автор также использует эксперимент, чтобы доказать правильность вышеприведенного утверждения.

image-20220113193941682

Наземная IoU в приведенной выше таблице представляет собой стандарт оценки в NMS путем вычисления IoU между прогнозируемой ограничивающей рамкой и базовым значением. Из результатов в приведенной выше таблице видно, что точность модели значительно улучшилась после использования IoU для определения NMS. Кроме того, в некоторых предыдущих работах в качестве критерия оценки для NMS использовалась прогнозируемая IoU, а не прогнозируемая оценка класса. Большинство методов напрямую и просто предсказывают IoU, добавляя ветвь IoU, но у этих методов есть две проблемы:

  1. Ветвь прогнозирования IoU добавляется напрямую, без извлечения некоторых функций, важных для прогнозирования IoU.

  2. Еще одна проблема — несовпадение прогнозов IoU.

    不对齐问题

Конкретная ситуация показана на рисунке выше.Приведенные выше результаты показывают распределение IoU после уточнения и распределение IoU без уточнения. Во время обучения ветвь прогнозирования IoU использует IoU между функцией предложения и эталонным кадром, но во время тестирования прогнозируемое значение рассматривается как IoU между прогнозируемой ограничивающей рамкой и эталонным кадром. является непоследовательным, что приводит к определенной проблеме рассогласования. Ниже описаны решения, предложенные автором для двух вышеуказанных проблем.

Решение

Проблемы без соответствующих функций

В ответ на указанные выше проблемы автор предлагает две модели их решения. Эти две модели называются модулями Attentive Corner Aggregation (ACA), Corners Geometry Encoding (CGE). Авторы используют эти две модели для извлечения функций, необходимых для прогнозирования IoU. Как следует из названия, все дело в Corner. Методы работы этих двух модулей описаны ниже.

модуль АСА

Сначала вводится модуль ACA, и перед введением модуля автор сначала представляет мотивацию для разработки модуля.

image-20220113195532024

Как видно из приведенного выше рисунка, видимая часть цели, наблюдаемая под разными углами, одинакова, что может не помочь нам выделить признаки, а также не способствует нам извлечению признаков, важных для прогнозирования IoU, так задумал автор. Взглянув на этот модуль, по словам автора, этот модуль может в определенной степени уменьшить разницу в извлеченных функциях, вызванную разными углами наблюдения.

Конкретный дизайн выглядит следующим образом:

image-20220113195349003

После создания предложений с использованием PoineNet2 и создания точечных семантических признаков авторы используют описанный выше метод для объединения точек в предложениях для создания признаков для каждого предложения. Подобно PointRCNN, автор также использует PointNet2 для извлечения признаков в Proposal, разница в том, что он накладываетсяKKПосле слоя SA в первомK+1K+1Layer автор не использовал FPS для выборки точек, но использовал восемь угловых точек предложения в качестве точек выборки, а затем искал радиус восьми угловых точек.rrВнутри точек мы используем PointNet для извлечения признаков этих областей, а затем применяем механизм внимания к этим признакам. Механизм особого внимания показан на следующем рисунке:

image-20220113200708349

Это механизм внимания на разных углах и на разных уровнях канала. Тогда последний признак — это сумма специального диагноза этих восьми угловых точек.

CGE-модуль

Цель этого модуля — использовать геометрические особенности предложений. Мы можем понять приведенное выше извлечение как семантические признаки. Результат этой части также очень прост, то есть мировые координаты восьми угловых точек предложения используются в качестве входных данных нейронной сети, Конкретная структура выглядит следующим образом:

image-20220113201130455

О проблеме рассогласования прогнозов IoU

Конструкция этой части также очень проста. См. рисунок ниже для конкретных операций. Сделав прогноз IoU, повторите прогнозируемый ограничивающий прямоугольник как предложение во входном модуле Proposal, чтобы ветвь IoU окончательно предсказала IoU между уточненным блоком и эталоном, что решает проблему несоответствия. Стоит отметить, что при однократном повторении меняется только ветка IoU, а остальные ветки остаются без изменений. В противном случае будут проблемы с несоответствием.

image-20220113201245045

эффект решения

image-20220113201627789

image-20220113201719983

Это эффект, достигнутый в этой статье на тестовом наборе Kitti, и эффект средний.Почему у одних моделей разрыв между проверочным набором и тестовым набором небольшой, а у других очень большой. Является ли это проблемой дизайна метода?

Эксперимент по абляции

Является ли выравнивание IoU действительным?

image-20220113202239311

Базовая линия здесь означает, что PointRCNN добавляет ветвь IoU. Выравнивание×\timesУказывает, что предсказанный bbox не отправляется в сеть,\checkmarkУказывает, что это было повторено один раз, и автор также провел эксперимент по доверительному выравниванию. Результат выглядит следующим образом:

image-20220113202755167

Как видно из вышеприведенной таблицы, доверительное выравнивание не только не привело к улучшению эффекта, но и привело к его снижению. Автор просто интерпретирует это как то, что доверие не используется для операций выравнивания.Это объяснение несколько натянуто, и уверенность — это также уверенность, полученная по характеристикам предсказанного предложения.

Проверка достоверности функционального модуля, связанного с IOU

image-20220113202349938

Сравнительный эксперимент некоторых операций в модуле АСА.

image-20220113203340244