Менеджер по исследованиям и разработкам Waymo: «Введение в передовые технологии восприятия автономного вождения»

Ссылка на видео:player.scalescale.com/player.HTML…

ЭтоWaymoМенеджер по исследованиям и разработкам (VoxelNet作者) в последнем совместном отчете: «Введение в передовые технологии автономного восприятия вождения». В этом отчете представлена роль Waymo в восприятии автономного вождения.五个研究方向последние результаты.

1. Overview of the autonomous driving system

Доклад начинается с введения в беспилотную систему.WaymoВозьмем в качестве примера систему беспилотных транспортных средств четвертого поколения. ввод как различные感知系统(видение, лидар, радиолокационные системы миллиметрового диапазона и заранее собранные карты и т. д.), через模块化或端到端处理(как глубокая нейронная сеть), вывод无人车控制命令(угол руля и ускорение автомобиля).

На следующем рисунке показана модульная конструкция основных беспилотных транспортных средств.输入模块За собранные карты и различные сигналы датчиков;定位模块По карте и сигналам датчиков выдается текущее местоположение беспилотного автомобиля;感知模块Выполните обработку восприятия на выходе модуля позиционирования, сигналах датчиков и картографической информации, а затем отправьте результаты восприятия на行为预测（BP）模块,Наконец规划模块Команда управления автомобилем дается в соответствии с восприятием, предсказанием поведения и результатами позиционирования,控制模块Выполнять управляющие команды.

2. Introduction to perception

Следующий рисунок представляет собой введение в модуль восприятия.Вход модуля восприятия — это данные датчиков (камера, лидар, радар миллиметрового диапазона) и высокоточные карты, а выход — представление окружающей среды.

На следующем рисунке показаны шесть основных направлений исследований в области восприятия среды автономного вождения:目标检测和追踪(оценивает местоположение, размер и ориентацию цели по данным лидарного облака точек);语义分割(Назначить класс каждому пикселю изображения);Flow(оценивает движение пикселей изображения и каждой точки в облаке точек в следующий момент);深度估计(оценка глубины каждого пикселя изображения);行人位置估计(Оценка движения пешеходов, в основном оценка совместного движения пешеходов);高精度地图(Создавайте высокоточные карты на основе данных различных датчиков).

3. New frontiers in scalable perception

На следующем рисунке показаны пять направлений масштабируемости в восприятии:模型泛化能力(обобщающая способность модели в различных погодных, городских и длинных задачах);Quality(производительность обнаружения модели);模型的计算效率(память и скорость вычислений);自动标注(заменяет ручную маркировку);仿真数据生成或数据压缩. вGeneralization，Quality，Computational Efficencyявляется онлайн-моделью, аData Flexibility，Labeling AutomationЭто оффлайн модель.

Автор представит следующие пять направлений в соответствии с вышеизложеннымWaymoпоследние результаты исследований.

3.1 Generalization

Это документ для неконтролируемого адаптивного обнаружения трехмерных объектов с помощью генерации семантического облака точек. Автор разработалSPGмодуль, который может основывать объекты на необработанных облаках точек (даже в закрытой или дождливой среде)生成语义点云，复原物体形状; затем объедините исходное облако точек со сгенерированным семантическим облаком точек, чтобы получить增强点云, и, наконец, с помощью популярного 3D-детектора объектов для обнаружения объектов. Будь то вtarget domainвсе ещеsource domain, разработанный авторомSPGОба модуля значительно повышают эффективность обнаружения детекторов 3D-объектов.

Ниже приводится проблема, на решение которой направлена статья.在雨天或遮挡情况下，点云质量下降很厉害, что влияет на окончательный результат обнаружения.

Основная идея этой статьи состоит в том, чтобы восстановить форму объекта до обнаружения 3D-объекта.

SPGМодули в основном делают две вещи:3D分割和前景形状还原. Сначала данные облака точек делятся на воксели, чтобы определить, принадлежит ли каждый воксель к вокселу переднего плана, а затем в каждом вокселе переднего плана создается семантическое облако точек для восстановления формы объекта.

SPGКонвейер показан на рисунке ниже.Эксперимент показал, что если добавить на 5% больше исходного облака точек, можно получить на 500% больше облака точек переднего плана.

Ниже приведенWaymo Domain Adaptation DatasetиKITTIрезультаты обнаружения в наборе данных.

Ниже приведен遮挡，远距离物体или大物体Результаты визуального осмотра на .

3.2 Quality

Это статья с использованием注意力网络Метод объединения многокадровой информации об облаке точек для обнаружения объектов иSPG在输入端提高点云质量разные,3D-MANв输出端将当前帧与历史帧proposals feature相结合для улучшения результатов обнаружения.

Основная идея этой статьи состоит в том, чтобы использовать одну и ту же магистральную сеть (например, Pointpillars) для извлечения функций предложения для текущего кадра и исторических кадров, а затем использовать модуль внимания для оптимизации предложения и, наконец, получить лучший результат обнаружения. .

Структура обработки бумаги показана на следующем рисунке:

На первом этапе эффективный детектор используется для генерации предложений и признаков для текущего входного кадра, в то время как предложения и признаки текущих и исторических кадров сохраняются.
На втором этапе модуль внимания сначала сопоставляет предложения текущего кадра и исторического кадра, а затем агрегирует признаки разных кадров и, наконец, получает результат обнаружения.

Ниже приведенWaymo Open Datasetрезультаты обнаружения в наборе данных.

3.3 Computational Efficency

В этой статье используются данные в waymorange imagesСначала 2D-свертка используется для выбора точки переднего плана объекта, а затем выполняется операция разреженной свертки над выбранным облаком точек переднего плана. комбинируяrange imagesИзвлеченные функции не только повышают эффективность обнаружения 3D-объектов, но и обеспечивают эффективность обнаружения 60 кадров в секунду.

Из-за редкости облаков точек предыдущие методы обнаружения (PointPillar и PV-RCNN) учитывали толькоOccupancy Sparsity, чтобы судить, является ли разделенный воксель пустым; и эта статья предназначена для максимизации эффективности обнаружения алгоритма, использования памяти, учитываяSemantic Sparsity, то есть определить, является ли разделенный воксель вокселем переднего плана.

Структура алгоритма следующая,输入为range images, который должен преобразовать облако точек в форму изображения; сегментировать точку переднего плана с помощью модуля сегментации и извлечь объект точки переднего плана; затемSparse Feature Extraxction, и, наконец, Бокс возвращается, чтобы получить предложение.

Ниже приведенWaymo Open Datasetрезультаты обнаружения в наборе данных.

3.4 Labeling Automation

Автор впервые представил线上模型和线下模型разница в развитии.

Это статья для自动标注Метод обнаружения 3D-объектов, эффект обнаружения достигает производительности человеческой аннотации, автор сначала объясняет важность автоматической аннотации.

Основная идея статьи заключается в том, что форма объекта с разных точек зрения будет видна в разное время, а сбор точек объекта в разное время может более точно оценить форму и размер объекта.

Ниже приведенmini-vanРазличные номера кадров точек объекта собираются вместе.Чем больше кадров, тем более полной оцениваемая форма.

Ниже приводится конвейер алгоритма.Во-первых, обнаружение каждого кадра последовательности облака точек, затем отслеживание нескольких объектов, а затем извлечение данных облака точек одного и того же объекта отслеживания.Здесь объекты делятся на статические и динамический для маркировки.

Ниже приведенWaymo Open Datasetрезультаты обнаружения в наборе данных. Следует отметить,IoU=0.8Стандарт ручной маркировки.

3.5 Data Flexibility

В этой статье собранные данные датчика используются для создания реалистичных данных изображения для реконструкции трехмерного мира; сгенерированные данные также могут использоваться для тестирования моделирования.

Ниже приведены конкретные практические приложения:不同视角和不同场景синтез.