История и практика технологии распознавания наземных ориентиров на высокоточных картах

искусственный интеллект

В этой статье в основном будет представлена ​​технологическая эволюция AutoNavi в распознавании высокоточных наземных знаков карты.Эти технические средства обслуживали потребности линии производства высокоточных карт в разные периоды и обеспечивали базовую техническую гарантию для AutoNavi. для создания высокоточных карт.

1. Распознавание лица

Распознавание наземных знаков относится к идентификации различных типов элементов наземных знаков на дороге карты, таких как наземные стрелки, наземный текст, время, наземные номера, лежачие полицейские, линии подтверждения расстояния до транспортных средств, лежачие полицейские, пешеходные переходы, линии остановки и уступки, медленные вниз Пусть очередь подождет. Эти результаты автоматического распознавания будут доставлены на производственную линию карт в виде производственных данных, а после производства они превратятся в карты для автономного вождения, навигации для транспортных средств и мобильной навигации.

Карты высокой точности обычно предъявляют требования к точности каждого элемента карты не менее сантиметра, поэтому требуется более высокая точность определения местоположения по сравнению с обычными картами, что также является самым большим отличием от обычного распознавания карт, поэтому изучите, как полностью распознавать наземные знаки. Это должно быть направление, в котором мы работаем.

При идентификации наземных знаков возникают две основные трудности: во-первых, существует множество типов и размеров самих наземных знаков;

1) Существует много видов наземных знаков: в реальной сцене существует много видов наземных знаков, и они различаются по содержанию, цвету, форме, размеру и т. д.

Цвет: например, желтый, красный, белый и т. Д.

Форма: форма стрелки, различные буквенно-цифровые формы, форма полосы, форма с несколькими полосами, форма плоскости, форма насыпи и т. д.

Размер: стандартная длина стрелы, определенная национальным стандартом, составляет 9 м, но также существуют элементы разметки земли размером 1–2 м или даже менее 1 м, особенно разница в размерах лежачих полицейских и тротуаров будет больше, что будет отражено в количество пикселей и соотношение сторон в изображении.Есть большая разница.

Рисунок 1. Некоторые наземные знаки

2) Покрытие сильно изнашивается: элементы грунта раздавливаются транспортными средствами, пешеходами и т. д. в течение многих лет, что приведет к износу, а частые пробки и другие сцены увеличивают вероятность грунта элементы блокируются. Поэтому качество данных облака точек, полученных с лидара, и данных изображения в видимом свете, полученных камерой, неравномерно, что создает большие проблемы для распознавания наземных знаков.

Общие проблемы перечислены ниже, а примеры показаны на рисунке 2.

Износ разметки на земле: разметка на земле неполная или сильно нечеткая из-за износа, выцветания и отслоения краски.

Проблемы среды сбора: окклюзия (строительство, транспортные средства), различия в отражательной способности материалов для лазера из-за изменений окружающей среды и нечеткий видимый свет (дождливые дни, подсветка и т. д.)

Рисунок 2. Идентификация наземных знаков, снятых в естественных сценах

2. Определите начало

Что необходимо сделать при распознавании наземной идентификации, так это извлечь эту часть наземной идентификации, и наиболее интуитивно понятным является выполнение традиционных методов, таких как пороговая сегментация, извлечение скелета и анализ связанных доменов. Сначала получают наземный набор точек в облаке точек, затем получают скелетный набор части с высокой отражательной способностью в наборе, затем вычисляют порог отсечки интенсивности для каждой локальной скелетной области, и, наконец, в связанной области ищут регионе и выполняются дополнительные меры по снижению шума.

Кроме того, мы также попытались извлечь наземные знаки с помощью алгоритмов, таких как GrabCut, Алгоритм GrabCut кластеризовал передний план и фон отдельно, чтобы получить k групп похожих наборов пикселей, а затем выполнил моделирование смешанной модели Гаусса (GMM) для переднего плана и фона. соответственно, принадлежит ли пиксель фоновому знаку или фону. После выделения предполагаемой области наземной идентификации модель машинного обучения (SVM и т. д.) используется для подразделения, чтобы получить лучший эффект распознавания.

Рисунок 3. Результаты идентификации традиционных методов экстракции

Как видно из приведенного выше рисунка, лучше выделить некоторые наземные знаки с хорошими передними и задними живописными пятнами, но результаты не годятся для износа, размытия, сходства переднего плана и фона, сложного фона и т. д. Легко пропустите отзыв и точность определения местоположения невысока. , надежность невелика.

3. Эпоха глубокого обучения

В 2012 году сеть Alexnet, предложенная командой Хинтона, выиграла конкурс по распознаванию изображений 2012. По сравнению с традиционным методом CNN имеет явное преимущество в области изображений. В последние годы также получили большое развитие технологии обнаружения и распознавания, основанные на глубоком обучении.

Эпоха глубокого обучения — это эпоха, управляемая данными и оборудованием. В сочетании с некоторыми ручными аннотациями и автоматической генерацией у нас есть миллионы данных, и данные различных сценариев по-прежнему обогащаются. В сочетании с исследованием алгоритмов и инновациями мы достигли большего и др. Хорошие технические и бизнес-результаты.

В настоящее время технологии обнаружения и распознавания в основном делятся на два основных направления: двухэтапные (такие как серия RCNN) и одноэтапные (SSD, YOLO и др.). Преимущество двухэтапной сети заключается в том, что общий эффект лучше, позиция распознавания более точная, а также она имеет определенную конкурентоспособность для обнаружения небольших целей.

Преимущество одноэтапного метода обнаружения и распознавания заключается в том, что скорость обработки выше. Карты высокой точности нуждаются не только в высокой производительности распознавания, но также должны иметь достаточно высокую точность распознавания положения, поэтому мы выбрали двухэтапное общее направление с высокой точностью.

1) Обнаружение R-FCN

Алгоритм R-FCN в сочетании с такими операциями, как позиционно-зависимая карта оценок и позиционно-зависимый roi pooling, обеспечивает высокую производительность и точность позиционирования при обнаружении и распознавании целей.Мы выбираем алгоритм обнаружения R-FCN, реализующий обнаружение и распознавание наземных знаков.

Алгоритм R-FCN основан на методе глубокого обучения.Изучая большое количество реальных образцов сцен, он достиг относительно большого улучшения в обобщении.Улучшена способность распознавания автоматического распознавания для разных сцен, а скорость отзыва наземных знаков было значительно улучшено. Схематическая диаграмма алгоритма выглядит следующим образом:

Рисунок 4. Схематическая диаграмма алгоритма R-FCN

Ниже приведены некоторые примеры обнаружения и распознавания наземных знаков:

Рисунок 5. Пример идентификации земли по алгоритму R-FCN

Внедрение глубокого обучения значительно улучшило производительность автоматического распознавания наземных меток на высокоточных картах, а отзыв наземных меток был значительно улучшен. позиция его выходных данных основана на категории наземных отметок Score, но часто позиция с наивысшей оценкой не обязательно лучше всего соответствует фактической позиции, поэтому с точки зрения точности прогнозирования позиции R-FCN не идеальна.

2) Каскадные детекторы

С развитием глубокого обучения и постоянным улучшением отраслевых требований к точности обнаружения и распознавания целей были предложены более высокоточные алгоритмы обнаружения и распознавания, такие как Iou-Net.

Мы своевременно внедрили более совершенный алгоритм распознавания, чтобы получить более точную точность позиционирования для удовлетворения бизнес-потребностей производственной линии.В сочетании с каскадным обнаружением мы использовали такие технологии, как адаптивное рецептивное поле Deformable-Conv, чтобы повысить точность распознавания алгоритма. .

Этот алгоритм отличается от традиционного алгоритма, который выполняет прогнозирование и регрессию ROI для получения конечной позиции, но непрерывно корректирует отклонение между прогнозируемой позицией и фактической позицией в виде каскадов.После каждого каскадного регрессора алгоритм распознавания результаты будут более подходящими.Истинное значение, которое очень полезно для повышения точности распознавания, отвечает высоким требованиям высокоточной карты для точности целевого положения и, наконец, обеспечивает лучшие результаты как в отзыве, так и в точности положения.

Рисунок 6. Принципиальная схема алгоритма каскадного обнаружения

Вот несколько примеров результатов распознавания алгоритма:

Рис. 7. Пример распознавания алгоритма каскадного обнаружения

Благодаря внедрению модели обнаружения и распознавания в каскадной форме способность автоматического распознавания высокоточных производственных линий была значительно улучшена с точки зрения точности распознавания, но наши исследования повышения точности автоматического распознавания положения бесконечны, поэтому у нас есть следующие решения.

3) Каскадное обнаружение + локальная регрессия

Представьте, что если мы выполним регрессию локального местоположения в отмеченной на земле области, то сеть сможет сфокусироваться на более тонких отмеченных на земле областях и, наконец, получить позицию ближе к границе. В сочетании с фактическим распознаванием наземных знаков мы выполним уточнение положения отдельно для частей, которые могут вызвать проблемы с точностью, и получим более точное положение.

Ниже приведены некоторые примеры результатов распознавания алгоритма:

Рисунок 8. Принципиальная схема идентификации алгоритма

Техническое решение обнаружения + регрессия обеспечивает более высокую точность определения местоположения, что приближает нас на один шаг к «реальному миру». Минус в том, что процесс технического решения долгий, не простой и красивый.

4) Обнаружение на основе углов

Метод обнаружения цели, основанный на угловой регрессии, использует единую сверточную нейронную сеть для прогнозирования двух наборов тепловых карт для представления положения углов различных категорий объектов, то есть целевая ограничивающая рамка обнаруживается как пара ключевых точек (т.е. , верхний левый угол и нижний правый угол ограничивающей рамки)), и вектор вложения для каждого обнаруженного угла. где углы используются для определения целевого местоположения, а вектор встраивания используется для группировки пары углов, принадлежащих одной и той же цели.

Этот метод упрощает вывод сети.Обнаружив цель как парные ключевые точки, он устраняет недостаток, связанный с необходимостью большого количества привязок для векторного слоя в существующем дизайне детектора, поскольку большое количество привязок вызывает большое перекрытие и положительные и отрицательные образцы не отличаются сбалансированы. В то же время, чтобы создать более узкие ограничивающие рамки, сеть также прогнозирует смещения для точной настройки положения углов. Наконец, точные ограничивающие рамки получаются путем прогнозирования тепловых карт, встраивания векторов и смещений.

Рисунок 9 Схематическая диаграмма обнаружения углов

Поскольку в задаче обнаружения необходимо получить карту признаков того же размера для выполнения регрессии положения, классификации категорий и т. д. на цели, алгоритм будет выполнять такие операции, как квантование и субдискретизация, и неизбежно будет потеря точности. Самым большим влиянием этого недостатка является то, что позиция, возвращаемая обнаружением, недостаточно надежна, и в некоторых случаях будет большее или меньшее смещение.

5) Каскадное обнаружение + уточнение сегментации

Благодаря постоянному совершенствованию технологии семантической сегментации семантическая сегментация, основанная на глубоком обучении, смогла классифицировать входное изображение на уровне пикселей, и ее точность становится все выше и выше, то есть очертания элементов изображения становятся все более четкими. тоньше и тоньше.

Мы принимаем модель сегментации с реснетом в качестве основы и объединяем такие методы, как адаптивное рецептивное поле, многомасштабное слияние, грубое слияние и механизм внимания к интересующей области для достижения сегментации наземных маркеров на уровне пикселей.

Чтобы получить информацию об объекте наземного знака, мы по-прежнему используем обнаружение для определения приблизительного положения наземного знака, но разница в том, что окончательная точная позиция наземного знака получается путем сегментации семантической информации наземного знака в соответствующий район.

Рисунок 10. Схематическая диаграмма сегментации наземной разметки

Ниже приведен пример частичного обнаружения в сочетании с уточнением:

Рисунок 11. Пример уточнения сегментации

Внедрение семантической сегментации повысило точность распознавания наземных знаков, решило проблему ненадежной точности определения местоположения, вызванную обнаружением, и вывело эффект автоматизации высокоточных картографических наземных знаков на новый уровень.

Однако этот метод немного громоздкий, а задачи обнаружения и сегментации требуют много ресурсов графического процессора, то есть для изображения требуется несколько операций графического процессора одновременно плюс последующая постобработка ЦП для получения конечного результата. Если эти шаги оптимизировать, процесс можно упростить и сэкономить много вычислительных ресурсов.

6) ПАнет

Исходя из вышеизложенных соображений, мы принимаем алгоритм обнаружения и распознавания на основе PAnet. Распространения информации на каждом уровне традиционной модели сегментации экземпляров недостаточно. PAnet хорошо решает эти проблемы, полностью интегрирует грубые и точные функции, не только слияние функций сверху вниз, но и слияние функций снизу вверх, а функции высокого уровня полностью интегрированы в основные функции строгой локализации. информации о неглубоких функциях.

Кроме того, адаптивная субдискретизация признаков комбинируется для объединения различных слоев признаков для извлечения функций области интереса для прогнозирования и добавления дополнительных ветвей классификации переднего плана и фона маски, чтобы сделать прогнозируемую маску более точной Комбинация этих методов имеет относительно большое преимущество для точности позиции обнаружения цели. В то же время сочетание задач сегментации и обнаружения может способствовать друг другу для достижения лучших результатов.

Рисунок 12 Принципиальная схема PAnet

Ниже приведены примеры результатов распознавания некоторых алгоритмов. Видно, что алгоритм также имеет определенную терпимость к частично изношенным и размытым наземным знакам, а его точность позиционирования была значительно улучшена. (Внешняя рамка наземной метки на рисунке — это приблизительное положение, полученное путем обнаружения, внутренняя рамка — это позиция, полученная путем сегментации на уровне пикселей, а внутренняя рамка принимается за конечное положение наземной метки).

Рисунок 13 Пример обнаружения и идентификации

Приведенная выше схема должна проецировать облако точек в 2D пространство, а в середине есть некая операция нормализации и квантования, которая неизбежно приведет к потере некоторой информации.Самое интуитивное, что цель легко теряется в некоторых местах с низкой отражательной способностью облака точек. Если его можно извлечь из исходного 3D-облака точек, то эти проблемы будут решены.

7) Обнаружение цели на основе 3D-облака точек

Основываясь на приведенных выше соображениях, мы исследуем обнаружение 3D-объектов в необработанных облаках точек.Распознавание 3D-облаков точек является важной частью различных реальных приложений, таких как автономная навигация, реконструкция, VR/AR и т. д. По сравнению с обнаружением на основе изображений лидар предоставляет надежную информацию о глубине, которую можно использовать для точного определения местоположения объектов и описания их формы.

Мы изучили различные алгоритмы распознавания 3D-облака точек, такие как распознавание 3D-облака точек на основе вида с высоты птичьего полета, вокселей и т. д. Из-за хорошей производительности PointRCNN при обнаружении исходных трехмерных облаков точек мы используем метод, основанный на PointRCNN, для извлечения наземных ориентиров.Вся структура обнаружения включает два этапа: первый этап делит облако точек всей сцены на точки переднего плана. и фоновые точки. Создавайте небольшое количество высококачественных 3D-предложений непосредственно из облаков точек восходящим образом.

Второй этап изменяет регион-кандидат в канонических координатах для получения окончательного результата обнаружения и преобразует каждое предложение в канонические координаты после объединения, чтобы лучше изучить локальные пространственные особенности и в то же время объединить с глобальными семантическими характеристиками в первый этап, для оптимизации поля прогноза и прогнозирования достоверности.

Рис. 14 Обнаружение трехмерного облака точек

4. Эффекты и преимущества

Поддержка больших данных делает наш алгоритм более надежным и распознаваемым. Сочетая различные стратегии в алгоритме и различные источники данных (облако точек, видимый свет и т. д.), мы постоянно повышаем точность распознавания наземной идентификации, точность определения местоположения которой достигла более 99% в пределах 5-сантиметрового диапазона Ground Truth. , а отзыв также достиг более 99,99%, все показатели неуклонно улучшались.

Вышеуказанная схема официально запущена, обработано большое количество данных.Квазивызывная скорость соответствует требованиям производственных операций.В то же время эффективность алгоритма на ручной производственной линии увеличивается с каждым днем ​​на день. Вот несколько визуализаций:

Рисунок 15. Эффект обнаружения наземных знаков

5. Пишите в конце

Карты высокой точности называют «глазами» системы автономного вождения, а самое большое отличие от обычных карт — использование разных предметов. Пользователи обычных навигационных карт — люди для навигации и поиска, а пользователи высокоточных карт — компьютеры для высокоточного позиционирования, вспомогательного восприятия окружающей среды, планирования и принятия решений. Таким образом, высокоточная карта требует не только очень высокой скорости воспроизведения элементов карты, но и очень высокой точности позиционирования.

Идентификация элементов в высокоточных картах выдвигает относительно высокие требования к технике На протяжении развития всей индустрии высокоточных карт производство карт постепенно переходило от чисто ручного к полуавтоматическому и даже полностью автоматическому. Технология распознавания периодов также постоянно развивалась и совершенствовалась: от ручного построения признаков до автоматических признаков, от двухмерного распознавания до трехмерного и многомерного распознавания, от распознавания из одного источника до слияния нескольких источников и т. д.

В настоящее время высокоточные карты в основном используют ручные операции, а качество и эффективность ручных операций всегда находятся в противоречии.Напротив, автоматическая машинная идентификация имеет более высокую эффективность, меньшие эксплуатационные расходы и качество работы не меньшее, чем ручное. Применение автоматической идентификации, несомненно, ускорит создание высокоточных карт и будет способствовать развитию индустрии высокоточных карт. Технология высокоточной идентификации местности была применена в высокоточной карте AutoNavi, эффективно повышая эффективность и качество производства данных и обеспечивая надежную техническую поддержку AutoNavi для создания высокоточных карт.

Следите за AutoNavi, чтобы найти больше профессионального контента в области технологий для путешествий