Обнаружение 3D-объектов — интерпретация документов BtcNet

машинное обучение

image-20211221152621280

ссылка на код

личный блог

бумажная ссылка

предложенный вопрос

Автор сначала указал, что рама LiDAR — это не трехмерная структура в строгом смысле, а 2,5-мерная структура. Поскольку LiDAR обычно получает структурные особенности только части цели, близкой к датчику, структуру части, удаленной от датчика, обычно трудно получить из-за окклюзии. Авторы называют эту проблему промахом формы Авторы отвечают на два важных вопроса о промахах формы во введении:

  1. Какова основная причина промаха формы в облаке точек.
  2. Влияние промаха формы на обнаружение 3D-объектов.

Есть три основные причины потери формы:

  1. Наружная окклюзия. Объекты впереди блокируют объекты сзади, что затрудняет восприятие датчиком объектов сзади.
  2. Сигнал потерян. Из-за материала цели или датчика часть сигнала датчика теряется, что затрудняет восприятие датчиком этой области.
  3. самоокклюзия. Близкая к датчику часть самого объекта блокирует часть, удаленную от датчика.

image-20211221151225448

Влияние промаха формы на обнаружение 3D-объектов:

image-20211221151336290

Обзор метода

XXпредставляет собой центральную точку прогнозируемой ограничивающей рамки,DDпредставляет размер ограничивающей рамки,SobS_{ob}представляет форму объекта, который можно наблюдать,SocS_{oc}Представляет форму закрытой цели.θ\thetaпредставляет параметры детектора,{p1,p2,...,pn}\left\{ p_1, p_2,...,p_n \right\}Представляет облако точек.

Цели обычных детекторов 3D-объектов:

θMLE=argmaxθP(X,θ{p1,p2...,pn},θ)\theta_{MLE}=arg\max_{\theta}P(X,\theta|\left\{p_1,p_2...,p_n \right\}, \theta)

Для некоторых сетей с поддержкой структуры они также добавилиSocS_{oc}Мониторинг данных. Таким образом, приведенную выше формулу можно записать в виде:

θMLE=argmaxθP(X,θ,Sob{p1,p2...,pn},θ)\theta_{MLE}=arg\max_{\theta}P(X,\theta , S_{ob}|\left\{p_1,p_2...,p_n \right\}, \theta)

Однако ни в одном исследовании не рассматривалась полная форма мишени, где полную форму мишени можно разделить на две части, одна из которых представляет собой форму наблюдаемой мишени, а другая представляет собой закрытую форму мишени. можно записать какS=SobSocS=S_{ob} \cup S_{oc}. Занятость BtcNet путем прогнозирования формы интересующей областиOSO_{S}чтобы явно использовать полную целевую форму. Затем сеть Btc выполняет обнаружение объекта на основе предполагаемой вероятности занятости объекта. Оптимизированный процесс обнаружения объектов выглядит следующим образом:

argmaxθP(OS{p1,p2...,pn},RSM,ROC,θ)argmaxθP(X,D{p1,p2...,pn},P(OS),θ)arg\max_{\theta}P(O_{S}|\left\{p_1,p_2...,p_n \right\}, R_{SM}, R_{OC}, \theta) \\ arg\max_{\theta}P(X,D | \left\{p_1,p_2...,p_n \right\}, P(O_{S}), \theta)

Исходя из этого, мы можем кратко обобщить общий процесс сети Btc:

  1. В первую очередь необходимо выделить те участки, которые окклюзированыROCR_{OC}и зоны потери сигналаRSMR_{SM}, а затем использовать сеть для генерации вероятности заполнения формыP(OS)P(O_{S}).
  2. Магистральная 3D-сеть используется для извлечения функций, а сгенерированные функции передаются в сеть RPN для создания 3D-предложений, разреженных тензоров.P(OS)P(O_{S})пришиты к карте объектов.
  3. Затем BtcNet использует уточнение предложения. местные особенностиP(OS)P(O_{S})и многомасштабные карты объектов. Для каждого предложения мы строим локальную сетку, покрывающую поле предложения. BtcDet объединяет локальные геометрические функции в локальную сетку, объединяет функции сетки и генерирует окончательные прогнозы ограничивающей рамки.

узнать форму окклюзии

Аппроксимация формы цели в реперной рамке

Проблемы окклюзии и отсутствия сигнала не позволяют нам получить полную информацию о форме объектов в реперной рамке. Поэтому автор использует следующие два допущения для аппроксимации полной информации о форме цели.

  1. Большинство объектов переднего плана напоминают ограниченное количество прототипов форм, например, пешеходы имеют несколько фиксированных типов телосложения.
  2. Объекты переднего плана, особенно транспортные средства и велосипедисты, примерно симметричны.

В связи с этим автор предлагает эвристической функции,H(A,B)H(A, B). Его роль состоит в том, чтобы оценить, покрывает ли цель B большую часть цели A и могут ли предоставленные точки заполнить недостающие части цели A. Чтобы иметь возможность приблизиться к полной форме A, мы выбрали три мишени с наибольшим количеством очков.B1,B2,B3B_1, B_2, B_3. Следовательно, полной целью конечного приближения является исходная точка A и триBnB_{n}баллы суммируются. Среди них цель A представляет собой закрытую цель в текущей сцене, а B — цель из той же категории в обучающем наборе.

image-20211221151627482

Имея приведенную выше приблизительную полную форму цели, мы можем различить окклюзированную область, сравнив исходную форму цели.ROSR_{OS}и области отсутствия сигналаRSMR_{SM}.

Различать в сферических координатахROCRSmR_{OC} \cup R_{Sm}

В реальных датчиках в тетраэдрической усеченной карте глубины есть не более одной точки, и когда точка лазера останавливается, все области за этой точкой перекрываются. Поэтому, чтобы иметь возможность лучше идентифицировать окклюзированные области, авторы предлагают использовать сферические сетки для вокселизации облака точек. В этом случае воксели в сферических координатах за любой точкой являются закрытыми вокселами. Поэтому заштрихованная областьROCR_{OC}Включает непустые сферические воксели и пустые воксели, лежащие за этими вокселами.

球形体素

Для областей, где сигнал отсутствует, авторы используют карту глубины, чтобы найти пиксели, лежащие на границах с сигналами радара и без них, а затем спроецировать их в сферические воксели.

信号缺失区域

До сих пор мы могли определить, какие области являются перекрытыми, а какие нет сигнальными областями в сцене облака точек. Кроме того, у нас есть приблизительная полная форма цели, чтобы мы могли обучить сеть. Во-первых, нам нужно присвоить метку каждому сферическому вокселу.

Создавайте тренировочные цели

в затененной зонеSOCS_{OC}и область потери сигналаSSMS_{SM}, нам нужно предсказать вероятность целевого покрытияP(OS)P(O_{S}). Автор использует аппроксимацию системы отсчета, сгенерированную в [2.1] (# для аппроксимации формы цели в системе отсчета)S^\hat{S}в сферические воксели, содержащиеS^\hat Sсферических вокселейP(OS)P(O_{S})Установите на 1, а остальные на 0.

Примечание. Описанная выше процедура предназначена только дляSOCSSMS_{OC} \cup S_{SM}.

构建训练目标

На изображении выше сферические воксели красного цветаP(OS)P(O_{S})1, а синий 0.

Авторы объясняют, что использование генеративных вероятностей занятости имеет два преимущества по сравнению с генеративными точками:

  1. S^\hat SСуществует несколько вложений целей, форма цели, аппроксимируемая заимствованными точками, неточна, а плотность облака точек разных целей также непостоянна. Эти проблемы можно решить с помощью дискретизации.
  2. Это может избежать проблемы рациональности создания облака точек.

Создать занятость формы

будетROCRSMR_{OC} \cup R_{SM}область, метод усреднения кодирует непустые сферические воксели. заключается в использовании точек, расположенных на сферических вокселях(x,y,z,feat)(x,y,z,feat)для представления характеристик этого вокселя, а затем эти характеристики передаются в сеть генерации занятости местоположения. Эта часть сети состоит из двух разреженных сверток с пониженной дискретизацией и деконволюций с повышенной дискретизацией. Механизм действия аналогичен разреженной свертке в декартовых координатах. Вероятность занятостиP(Os)P(O_{s})Используйте кросс-энтропийную потерю для наблюдения.

Комбинация вероятностей занятости местоположения

так какP(OS)P(O_{S})создается в сферической системе координат. Чтобы облегчить обнаружение целей,P(OS)P(O_{S})Преобразуйте в декартову систему координат, а затем используйте магистральную 3D-сеть для извлечения признаков. Поскольку декартов воксель может соответствовать нескольким сферическим системам координат, автор выбирает самую большую из них, расположенную в декартовом вокселе.P(OS)P(O_{S})быть вероятностью этого воксела. Тогда для этих вокселейP(OS)P(O_{S})Кроме того, в сочетании с необработанными вокселями максимальное объединение сочетается с многомасштабными функциями необработанных вокселей. Затем сеть RPN генерирует предложение.

Уточнение предложения с учетом окклюзии

Автор также представил в предложении процесс уточненияP(OS)P(O_{S})для дальнейшего включения этой функции. Кроме того, автор вводит локальную карту объектов.fgeof_{geo}. Автор проанализировал введение в предложение уточнитьP(OS)P(O_{S})Два преимущества:

  1. P(OS)P(O_{S})Включена только вероятность перекрытых и отсутствующих областей сигнала, потому что других областей за пределами перекрытых и отсутствующих областей сигнала можно избежать в процессе регрессии ограничивающей рамки. Например, красная область × на рисунке ниже.
  2. Предполагаемая занятость указывает на наличие ненаблюдаемых форм объектов, особенно с высокойP(OS)P(O_{S}), например, оранжевая область на рисунке ниже,

image-20211221143916216

результат

image-20211221151726036

В приведенной выше таблице показаны результаты, полученные в этой статье на тестовом наборе котят.Из таблицы видно, что автор добился большого прогресса на двух уровнях: среднем и редком. Это также свидетельствует об эффективности автора в решении проблемы нехватки формы. Потому что именно эти модные и жесткие цели могут столкнуться с более серьезными проблемами промаха формы.