Углубленная интерпретация Tesla AI DAY (1) - начиная с нейронной сети компьютерного зрения

искусственный интеллект Автопилот
Углубленная интерпретация Tesla AI DAY (1) - начиная с нейронной сети компьютерного зрения

Это 21-й день моего участия в августовском испытании обновлений.Подробности о событии:Испытание августовского обновления

Прошлой ночью Douyin открыл День ИИ Tesla, и каждый может обратить внимание. Меня больше беспокоит Tesla Bot, но меня больше беспокоит часть нейронной сети, о которой я немного знаю, то есть часть FSD Tesla.Сегодня мы сосредоточимся на презентации Андрея Карпаты Давайте расширим ее для всех , В соответствии с нашим собственным пониманием, мы будем интерпретировать, как FSD выполняет большую задачу вождения без водителя с помощью компьютерного зрения.

В эту статью вложено много сил и времени, и она также основана на моем обычном понимании компьютерного зрения, надеюсь, она всем понравится. Если вы хотите дать мне бесплатный палец вверх, чтобы подбодрить меня, в то же время эту статью нелегко найти, поэтому, пожалуйста, не перепечатывайте ее по своему желанию, спасибо!

Идея Envoy об автономном вождении на основе компьютерного зрения

Во время Дня искусственного интеллекта Tesla снова поддержала свой подход к беспилотному вождению, основанный на видении, который использует нейронные сети, чтобы в идеале позволить автомобилю работать в любой точке планеты с помощью своей системы «автономного вождения». Андрей Карпати, глава отдела искусственного интеллекта Tesla, описал архитектуру Tesla как «создание животного с нуля», которое может передвигаться, чувствовать окружающую среду и основываться на том, что он видит. Действовать автономно и разумно.

001.png

Начиная с компонента зрения, так называемый компонент зрения предназначен для построения видеоданных в реальном времени из необработанных видеоданных, собранных 8 камерами, установленными вокруг тела.векторное пространство. Это векторное пространство предоставляет всю информацию для беспилотного транспортного средства, чтобы управлять транспортным средством, линиями полосы движения дороги, транспортными средствами, движущимися по дороге, пешеходами, поддержкой движения на дороге, знаками дорожного движения и так далее.

Как живые существа воспринимают окружающую среду через зрение

002.png

Вышеприведенный рисунок символизирует процесс восприятия позвоночными окружающей среды через зрение.Здесь есть концепция мультибиологии.Здесь мы думаем, что перед передачей информации в мозг для обработки эти особенности нейронной сети объединяются и абстрагируются слой по слою.

Подробно, как показано на рисунке ниже,Светлый(по сути, электромагнитные волны) несут структурную информацию внешнего мира через ряд преломляющих систем (таких как линзы, стекловидное тело и т. д.),Проецируется на сетчатку у основания глаза. LGN принимает эту входную информацию об изображении. Аксон не означает, что есть только один нижестоящий нейрон, на самом деле нейрон LGN может проецироваться на несколько нижестоящих нейронов V1, а клетка V1 может получать несколько входных данных от клеток LGN. V1 принимает дюжину входных данных LGN, которых достаточно для формирования визуального элемента. С постепенной интеграцией информации рецептивное поле нейронов также меняется с локального и простого на глобальное и сложное.LGN представляет собой рецептивное поле концентрических кругов, и V1 может кодировать различные локальные особенности, такие как ориентация. Часть V2 может реагировать на угол, образованный двумя направлениями, на основе интеграции информации от V1, в то время как некоторые ИТ-нейроны могут активироваться более сложными визуальными признаками (например, конкретными объектами) для определения определенной вещи.

012.jpeg

Карпати объясняет, как нейронные сети Tesla со временем обрабатывают информацию, выпускают технологии для проектирования автомобилейзрительная кора, по сути, первая часть «мозга» автомобиля, которая обрабатывает визуальную информацию, чтобы информация более разумно поступала в систему.

011.png

Первый — это сбор исходных графических данных через камеру.1280×96012BitHDR1280 \times 960 12-Bit HDR, давайте вкратце напомним, что несколько лет назад Tesla Autopolite собирала информацию об изображении с помощью одной камеры, чтобы идентифицировать линии полосы движения, чтобы убедиться, что транспортное средство движется в проезжей части, и предсказать расстояние до транспортного средства, чтобы поддерживать безопасное расстояние между транспортные средства. Вся эта работа основана на одном изображении.

Магистральная сеть извлечения признаков

003.png

Видеть эту сетевую структуру не всем приятно, это не остаточная сетевая структура, да, это остаточная сетевая структура (структура этого абзаца немного хе-хе). Собранные исходные изображения поступают в костяк (базовую структуру) нейронной сети, состоящий из остаточных блоков в определенном порядке. Подробная информация об остаточной сетевой структуре уже была предоставлена ​​вам ранее.

005.png

Обратите внимание на левую часть рисунка выше, исходному изображению придаются черты разного разрешения через остаточную сетевую структуру.

  • 20times15×51220 \\times 15 \times 512
  • 20times15×25620 \\times 15 \times 256
  • 80times60×12880 \\times 60 \times 128
  • 160times120×64160 \\times 120 \times 64

Если вы видите приведенные выше данные, если вы плохо знаете людей о нейронных сетях, это может сбивать с толку.Вот вам краткое объяснение.80times60×12880 \\times 60 \times 128, выход 12880×6080 \times 60Карта признаков размера, так называемые разные разрешения означают, что чем больше размер карты признаков, тем выше разрешение, а значит, карта признаков содержит больше информации о деталях изображения.Наоборот, чем меньше разрешение, тем меньше размер карты объектов — это глобальная информация.

006.png

Следующим шагом является BiFPN. Мы извлекаем из исходного изображения определенное количество признаков разного размера. Следующим шагом является этап слияния. Мы извлекаем информацию о признаках разного разрешения и масштаба и объединяем их друг с другом, чтобы получить более богатую информацию. то есть многомасштабный Feature Pyramid Fusion (Mulit-Scale Feature Pyramid Fusion). Нам нужна информация о другом масштабе.Карта объектов с более низким разрешением будет охватывать функции (то есть контекстную информацию) с глобальной точки зрения, в то время как карта объектов с высоким разрешением уделяет больше внимания деталям.Конечно, для нас детали и глобальная информация - это все, что нам нужно. Их хорошее слияние даст неожиданные результаты.

Приведите пример, иллюстрирующий преимущества слияния. Например, подробная карта объектов в правом нижнем углу изображения выше не может определить, является ли это транспортным средством (тележкой). Это положение точки схода, идентифицированное как параллельная линия с помощи изображения справа, так что устранение неоднозначности дает правильный ответ да.

007.png

На BiFPN это голова обнаружения, соответственно cls используется для предположения категории цели распознавания, а reg используется для возврата позиции цели. Немного похоже на YOLO, вывод представляет собой сетку, каждая сетка используется, чтобы указать, есть ли цель в этом месте, если есть цель, это расширяет цель для получения информации.Эта информация используется для точного определения местоположения цели , такие как координата центра цели x, смещение смещения y, если вы хотите узнать больше, вы можете увидеть принцип, лежащий в основе моего совместного использования YOLO.

Сделайте перерыв на некоторое время, а затем продолжите обновление, так называемое следующее может быть сегодня днем, пожалуйста, не уходите, если хотите, продолжайте обращать внимание.

015.jpeg