Применение машинного обучения для обнаружения дорожных знаков и точной классификации

Управляемое чтение

Данные очень важны для карт, а без данных нет картографического сервиса. Когда пользователи используют картографические сервисы, они не думают, что данные похожи на айсберг. Видимость для пользователя — это только самая непосредственная и явная часть функции продукта, а фундамент, необходимый для поддержки явной части, часто больше.

Картографические данные сначала собираются у профессионалов. Инструментами сбора являются автомобили, велосипеды, самолеты и спутниковые снимки. В последние два года сбор данных осуществляется методом краудсорсинга с использованием интеллектуального оборудования. После сбора скорость и точность обновления данных бесконечно улучшаются. Поскольку рельеф меняется так быстро, пользователи все больше полагаются на картографические приложения. Поэтому скорость обновления данных и точность данных являются главными приоритетами картографических компаний, которые заботятся о пользовательском опыте. Первым шагом в обновлении данных является обнаружение дорожных знаков.

В этой статье в основном будет представлено конкретное применение технологии машинного обучения при производстве картографических данных AutoNavi.Эти технические решения и конструкции были проверены и достигли хороших результатов, а также обеспечивают базовую техническую гарантию для быстрого обновления картографических данных AutoNavi.

Определение «обнаружение дорожных знаков»

Обнаружение дорожных знаков относится к обнаружению различных типов дорожных знаков, таких как ограничение скорости, запрет на разворот, пешеходный переход, электронные глаза и т. д., на обычных изображениях просмотра улиц с помощью автоматизированных средств. Эти результаты обнаружения будут доставлены в процесс производства картографических данных в качестве производственных данных и в конечном итоге превратятся в картографические данные, обслуживающие огромное количество пользователей.

Трудности и вызовы

Основная сложность обнаружения дорожных знаков заключается в том, что оно сложно по стилю, и на него сильно влияет природная среда в процессе съемки. Кроме того, чтобы соответствовать требованиям скорости обновления данных и точности данных, требования к производительности алгоритма также чрезвычайно строги.

Формы образцов сильно различаются

Разница в форме дорожных знаков в основном отражается в:

Существует много типов: существуют сотни типов дорожных знаков, определенных национальным стандартом;

Различные формы: обычные дорожные знаки имеют форму треугольника, круга, квадрата, ромба, восьмиугольника и т. д., а также наземную разметку, электронные глаза, сигнальные огни и физические объекты, такие как ограничивающие высоту столбы и ограждения;

Широкая цветовая гамма: распространены желтый, красный, синий, зеленый, черный, белый и т.д.;

Большие различия в размерах внутри изображения: неравномерное распределение от нескольких сотен пикселей (например, квадратные знаки, пешеходные переходы и т. д.) до более десяти пикселей (например, электронные глаза);

Изменения в природных сценах

В природных сценах дорожные знаки могут быть заблокированы или затерты деревьями или транспортными средствами; погода, время года и т. д. также влияют на процесс получения изображения, что приводит к размытию изображения и искажению цвета.

Некоторые знаки, похожие по внешнему виду на дорожные знаки, такие как деловые знаки, дорожные рекламные щиты и т. д., представляют большую проблему для точности алгоритма.

Требования к производительности

Точная скорость отзыва: в нашем сценарии применения требования к скорости отзыва и уровню точности чрезвычайно высоки.Любой отказ от отзыва приведет к задержке в обновлении данных, в то время как неправильный отзыв повлияет на эффективность работы и рабочий цикл и, в конечном итоге, повлияет на быстрое обновление данных. ;

Пропускная способность: AutoNavi ежедневно обрабатывает сотни миллионов изображений, что требует от нашего алгоритма не только эффективности, но и достаточной скорости, чтобы избежать отставания данных и повлиять на своевременность обновления картографических данных;

Масштабируемость: типы дорожных знаков не статичны (национальный стандарт будет корректироваться, а разные страны и регионы имеют свои особенности), поэтому алгоритм должен иметь очень хорошую масштабируемость и быстро адаптироваться к различным новым типам дорожных знаков;

Схема обнаружения дорожных знаков на карте AutoNavi

В настоящее время модели глубокого обучения, обычно используемые в академических кругах для задач обнаружения целей, обычно обучаются методу End2End для получения глобально оптимального эффекта обнаружения. Эта схема очень проста в использовании, нужно всего лишь разметить «выборки из сотен объектов», а затем поместить ее в рамки глубокого обучения для итеративного обучения, после чего можно получить итоговую модель, которую можно в основном разделить на Две категории (FasterRCNN [1]) и одна стадия (YOLO [2], SSD [3]).

Однако в процессе фактического использования необходимо решить следующие проблемы:

Высокая стоимость маркировки выборки: все обучающие выборки должны быть размечены по всем категориям, при добавлении новых категорий необходимо дополнять весь объем исторических обучающих выборок, что чрезвычайно затратно;

Нет однотипной итерации: из-за различной частоты и важности дорожных знаков бизнес предъявляет более высокие требования к скорости квазивызовов некоторых типов (например, электронные глаза, знаки ограничения скорости и т. д.). Однако модель End2End должна быть полностью повторена для всех типов, а оптимизация одного типа невозможна, что приводит к чрезвычайно высоким затратам на итерацию алгоритма и тестирование;

Обучение модели сложно: существуют сотни категорий дорожных знаков, с которыми нам нужно иметь дело, и их частота сильно различается.Использование одной модели обнаружения цели для выполнения такой огромной задачи классификации слишком сложно для моделирования обучения, медленной сходимости, отзыва. скорость, скорость точности трудно сбалансировать

В сочетании с развитием общей технологии обнаружения целей и потребностями карты AutoNavi для обнаружения дорожных знаков мы, наконец, выбрали Faster-RCNN в качестве базовой структуры обнаружения, ее эффект обнаружения лучше (особенно для небольших целей), а также независимая сеть RPN. Требования к расширяемости могут быть удовлетворены. Что касается скорости, мы также внесли целевые корректировки в оптимизацию.

В реальном использовании мы разделяем структуру обнаружения на два этапа: обнаружение цели и точная классификация:

этап обнаружения объекта

Целью этапа обнаружения цели является обнаружение всех дорожных знаков на картинке с помощью Faster-RCNN и выполнение грубой классификации, что требует чрезвычайно высокой скорости отзыва и скорости выполнения. При фактическом использовании мы приняли следующие стратегии для улучшения возможностей алгоритма:

С точки зрения эффекта: цели обнаружения делятся на N категорий в соответствии с характеристиками их формы (такими как круги, треугольники, квадраты и пешеходные переходы с ненормальным соотношением сторон и т. д.), а затем для каждой категории настраивается выделенная сеть RPN, и каждый RPN основан на соответствующем размере.Соотношение и масштаб привязки дизайна функций, различные RPN используют карты функций разных слоев по мере необходимости, и дизайн является более целенаправленным;

С точки зрения эффекта, для неравномерного распределения выборок различных типов используются различные методы улучшения выборки, а для дополнительной корректировки распределения выборки в процессе обучения используются OHEM и другие методы;

Что касается эффекта, он также использует IoU-Net, Soft-NMS и другие решения для дальнейшего улучшения эффекта обнаружения;

С точки зрения производительности, базовый сверточный слой используется совместно различными категориями, чтобы гарантировать, что время обнаружения не увеличится чрезмерно;

С точки зрения масштабируемости, для новых типов в идеале необходимо добавить только одну сеть RPN для итерации в одиночку, что не может оказать никакого влияния на эффекты других типов (как показано на рисунке ниже, RPN1 и RPN2 полностью независимы). .

Стадия тонкой классификации

Цель этапа точной классификации состоит в том, чтобы точно классифицировать кадры-кандидаты, полученные на этапе обнаружения цели, и отфильтровать шум, чтобы обеспечить очень высокую скорость и точность воспроизведения. В реальной реализации также используются следующие стратегии для улучшения эффекта:

Настройте независимую сеть тонкой классификации для каждой категории, не мешая друг другу; итерации каждой категории полностью независимы и параллельны, что может быть разработано несколькими людьми параллельно, что эффективно сокращает цикл НИОКР;

В соответствии со сложностью каждой категории выберите сети различной вычислительной сложности для полной точной классификации и подавления шума, избегая узких мест эффективности из-за высокой сложности определенных типов;

Что касается образцов, каждая категория может собирать образцы независимо, а также может собирать и маркировать определенные типы, что значительно повышает эффективность построения наборов для обучения и тестирования;

Как показано на рисунке ниже, для круглых знаков разница относительно очевидна, и можно использовать простую сеть; для квадратных знаков необходимо различать положительные и отрицательные образцы по расположению текста и содержанию, а классификация сложна, поэтому необходимо использовать более глубокую сеть: Рисунок 6 Схема модуля точной классификации

Поскольку одновременно используется несколько моделей, вышеуказанное решение приведет к значительному увеличению использования видеопамяти сервера, что приведет к дополнительным требованиям к вычислительным ресурсам. В ответ на эту проблему мы оптимизируем инфраструктуру глубокого обучения, динамически выделяем временные буферы и совместно используем их между моделями, а также адаптируем функцию обратного распространения фреймворка, что в конечном итоге снижает использование памяти более чем на 50%.

эффекты и преимущества

Вышеупомянутый план был официально запущен, и скорость квазивызовов соответствует требованиям производственных операций, а средняя ежедневная пропускная способность изображений составляет более 10 миллионов. Ниже приведены некоторые визуализации (разные прямоугольники представляют разные результаты обнаружения):

резюме

В AutoNavi Maps применена технология обнаружения дорожных знаков, которая эффективно повышает эффективность создания данных AutoNavi Maps и достигает скорости обновления картографических данных, близкой к T+0 (разница во времени равна нулю).

В настоящее время мы также используем технологию машинного обучения для автоматизации производства данных, чтобы еще больше уменьшить разницу между реальным миром и картографическими данными, чтобы «связать реальный мир и сделать путешествие лучше».