Рен Сяофэн, главный научный сотрудник AutoNavi: применение визуального интеллекта в AutoNavi

искусственный интеллект

На конференции Yunqi в Ханчжоу в 2019 году техническая группа AutoNavi Maps поделилась с участниками актуальными темами в различных областях технологий путешествий, включая зрение и машинный интеллект, планирование маршрутов, точное позиционирование на основе сценариев, приложения для пространственно-временных данных и эволюцию миллиардов архитектура уровня трафика тема. Сцена была горячей, и публика бурно отреагировала. Мы собрали отличный речевой контент и опубликовали его один за другим, и эта статья — одна из них.

Жэнь Сяофэн, главный научный сотрудник AutoNavi Maps, разделил титулВизуальный интеллект соединяет реальный мирЭта статья организована по содержанию сцены (текст немного отредактирован, не затрагивая первоначального смысла).Для получения более подробной информации о реализации технологии визуального интеллекта, пожалуйста, обратите внимание на последующие серии статей.

Ниже приводится сокращенная стенограмма выступления:

Сегодня я в основном познакомлю вас с тем, как зрение и связанные с ним технологии реализованы в AutoNavi и как помочь соединиться с реальным миром. Фраза «соединение реального мира» — это не только моя личная идея, но и миссия Gaode Map.Соединение реального мира, чтобы сделать путешествие лучше.

Прежде всего, давайте кратко представим Карты AutoNavi.Существует более 100 миллионов активных пользователей в день и более 400 миллионов активных пользователей в месяц.Карты AutoNavi предоставляют не только навигацию, но и другие услуги, связанные с путешествиями, включая информационные услуги, навигацию для вождения, и совместное путешествие., умный автобус, умное живописное место, езда на велосипеде, ходьба, междугородние поездки и другие сценарии применения.

Что делает Gaode Map, так это устанавливает отношения между людьми и реальным миром.Людям необходимо установить связь с реальным миром.Карта является основой, и на карте есть больше информации.

Видение — это мост в реальный мир

Видение — это мост в реальный мир. Зачем? С точки зрения получения информации человеком, 80% контента усваивается посредством зрения. С точки зрения обработки информации человеком, 30-60% человеческого мозга используется для визуального восприятия. С точки зрения машины зрение является очень важным средством общего восприятия.

У людей есть много других способов восприятия реального мира, таких как датчики, LT... Однако, как общий метод, я всегда думаю, что зрение является первым выбором, общим, и количество информации очень велико. это в режиме реального времени.

Есть и другая причина, более 80% человеческого реального мира (различные элементы) предназначены для зрения. Иногда мы слишком хорошо знакомы с реальным миром, чтобы заботиться о нем слишком сильно. Но посмотрите вокруг на знаки и сообщения, в том числе на то, что распознается на основе визуального дизайна и приобретения.

Поскольку основной способ получения информации людьми — зрение, реальный дизайн также основан на видении. Как вы понимаете, мир был бы совсем другим, если бы основным способом получения информации было обоняние. Основываясь на этом, возвращаясь к тому, что мы делаем, вы не удивитесь тому, что большая часть получения и установления картографической информации также происходит благодаря зрению.

Визуальные технологии@верхненемецкое картографирование

Существует множество различных способов применения визуальных технологий к картам AutoNavi, как показано на следующем рисунке:

Слева — составление карт, есть обычные карты и карты высокой точности, а карты высокой точности соответствуют будущему беспилотному вождению. Правая сторона связана с навигацией, мы делаем некоторую работу, связанную с позиционированием, и мы также используем визуальные технологии, чтобы сделать навигацию более удобной. Из-за нехватки времени сегодня я познакомлю вас только с частями, связанными с обычными картами и навигацией.

Откуда берется картографический сервис?Прежде всего нам нужно собирать данные.В настоящее время большая часть информации собирается с помощью камер и зрения. Реальный мир очень большой, миллионы километров дорог в стране, плюс другая информация, которую в настоящее время невозможно обработать вручную, в значительной степени требуется автоматическая идентификация для идентификации данных через алгоритмы. Конечно, иногда алгоритм не может достичь 100%, и требуется ручная коррекция, чтобы создать базу данных карт для поддержки сервисов картографических данных.

Задачи по созданию карт, обычные задачи по составлению карт обычно делятся на две категории: одна связана с дорогой, а другая — с идентификацией списка POI. Оба типа задач требуют больше визуальных навыков. Например, при распознавании дорожных знаков алгоритм должен найти все знаки на дороге один за другим и одновременно определить тип и содержание знаков.

Существует более 100 видов дорожных знаков. Если вы просто имеете дело с этими флагами, это на самом деле не так уж сложно. В действительности иногда необходимо собирать данные с минимальными затратами, и как обеспечить качество изображения — это проблема, которую необходимо рассмотреть и решить.

При сборе информации иногда картинка будет иметь искажения, отражения, окклюзии и т.д., не говоря уже о проблеме сжатия разрешения, само изображение зависит от качества и стоимости объектива, погодных условий, освещенности и других факторов, а иногда собранные изображения Есть много плохих картинок. В настоящее время необходимо не только решить проблему идеального алгоритма, но и решить множество практических ситуаций.

Чтобы дать вам несколько примеров, изображение слева ниже является фактическим собранным изображением, и могут возникнуть различные проблемы. Если вы немного разбираетесь в камере, то знаете, что у камеры есть внутренние и внешние параметры, а внутренними параметрами являются фокусное расстояние, центр и дисторсия. Внешними параметрами являются положение и угол, которые будут влиять на эффект изображения.

Для задачи распознавания эти параметры камеры не вызовут особых проблем, но если вам нужно сделать какие-то расчеты, связанные с геометрией и положением, то искажение камеры и неточные внутренние и внешние параметры вызовут большие проблемы. В основном мы можем решить эту проблему, объединив данные из нескольких источников для сопоставления. Справа реальный пример.Исправлен угол коррекции искажения камеры, а также исправлены некоторые косые углы, что значительно улучшает обработку более позднего алгоритма.

Другой пример, качество изображения. Некоторые картинки некачественные, но отбрасывать их нельзя, а полезная информация все же есть. Некоторые исходные изображения очень размыты после увеличения. Если в это время используется метод улучшения изображения, это изображение можно сделать более четким. Существует множество методов улучшения качества необработанных данных. Например, для повышения точности алгоритма распознавания и повышения производительности труда его также можно использовать для обнаружения размытия.Сравнивая до и после улучшения, вы можете узнать, какие из них размыты, а какие нет.

Только что приведенные примеры — это просто дорожные знаки. Еще одна интересная проблема — восприятие электронных глаз. Электронный глаз очень мал, а обнаружение мелких целей — сложная задача, и в исследовательской сфере она волнует всех. Это можно пощупать, сфоткать, если слишком мелко, то после увеличения будет не понятно, да и дальний вид не так хорош. Так как же нам точнее найти такой маленький электронный глаз?

Обычный способ - увеличить область, потому что эта вещь слишком мала, трудно найти эту цель, найти область для увеличения и ввести окружающую информацию. Эта информация может помочь лучше найти эту маленькую цель, а если вы поместите ее немного больше, вы сможете увидеть другую связанную информацию, которая поможет интеллектуальному обнаружению электронного глаза.

Однако если он будет слишком большим, возникнут проблемы, а если он будет слишком большим, то будет введено много нерелевантной информации. С технической точки зрения есть некоторые решения.Сегодня есть механизм внимания,который используется больше в визуальных технологиях.Когда рисуешь большой кадр,машина запоминает какая часть важна а какая не важна,помогая чтобы лучше сосредоточиться на самой цели. Конечно, постарайтесь использовать некоторую предварительную информацию, такую ​​как собственное распределение, рост и размер.

Обнаружения света недостаточно, реальный мир много раз меняется. Часто необходимо различать, что изменилось, а что нет. Раньше был обнаружен электронный глаз, а в новых данных был обнаружен другой электронный глаз.Необходимо знать, являются ли они одинаковыми.

Как судить? Поскольку выражение этой картины отличается, если вы внимательно присмотритесь, то действительно увидите, что здания и типы сооружений на заднем плане похожи. Необходимо использовать алгоритм, чтобы определить, верно это или нет, который включает обнаружение цели, владение полосой движения, анализ типа эрекции и сопоставление сцены. По ним в значительной степени можно судить о том, что это за сцена, чтобы судить, одинаковы ли элементы двух изображений.

Я только что упомянул дорогу, вот несколько примеров, связанных с POI. Бренд POI можно разделить на множество различных типов, таких как арка, листинг, дверная поверхность и так далее. Существуют не только различные POI, но и различные не-POI. Если вы обнаружите только текст, вы обнаружите, что многие из них в реальном мире — это не POI, а только знаки, слоганы, рекламные объявления, двустишия, дорожные знаки и т. д. Следовательно, необходимо различать POI и не-POI.

Есть много других сложных сцен, и я не буду их здесь перечислять. О некоторых из них можно и не подумать в обычное время. Например, трехмерное перечисление — это не плоская вывеска. Это может быть фруктовый супермаркет на улице. угол улицы, и он изгибается вдоль угла. Этот тип бренда трудно обнаружить полностью на одном изображении, даже если он будет обнаружен, он будет случайно разделен на два бренда, поэтому сложность реального мира все равно вызовет больше проблем.

Столкнувшись с такой сложностью, необходимо проанализировать ситуацию по конкретным сценариям. Во многих случаях конечным результатом часто является не один алгоритм, способный решить все проблемы, а требуется слияние различных алгоритмов. Например, если это текст, его нужно обнаружить, и сам текст тоже нужно обнаружить и распознать. Что касается местоположения, необходимо сделать некоторые трехмерные выводы. Во многих случаях после получения данных также остаются размытые и окклюзионные участки, и также необходимо принимать решения.

Каждое суждение не может быть решено одним методом, и невозможно достичь наилучших результатов, полагаясь только на одну модель.Для достижения лучших результатов требуется две или более моделей для решения проблемы с разных сторон. накопление данных.

Некоторые из задач, перечисленных выше, имеют определенную степень сложности.Как и все задачи, чем больше вы их решаете, тем сложнее становится. Мы занимаемся ими и сейчас. Эти алгоритмы во многом определяют эффективность картографирования и качество карт. которые достигают пользователей. Это очень важные основные вопросы.

POI - это не только приведенное выше введение, но нужно только судить, является ли это POI или распознавание текста.Во многих случаях необходимо понимать содержание макета. Если бренду нужно знать информацию о бренде, иногда будет основное имя, иногда филиалы, иногда нет, есть ли контактная информация, сфера бизнеса, это нужно делать с помощью алгоритмов.

Vision Technology@AutoNavi Картографическая навигация

Вышеизложенное заключается в том, что создание карт сопряжено с большими сложностями, которые необходимо обрабатывать с помощью визуальных алгоритмов или других алгоритмов. Затем поделитесь навигацией.

Расскажите сначала о собственном опыте. Некоторое время назад я был в отпуске в Испании.В Европе много кольцевых развязок.Навигация Google(Maps)часто напоминает мне,что после въезда в поворот нужно свернуть на третий съезд.Это не считается съездом,поэтому я ошибся несколько раз . Я никогда не водил машину в Китае, а внутреннее движение сложнее.Например, в Xizhimen в Пекине иногда можно повернуть направо, иногда нужно повернуть на 810 градусов.

Мы надеемся внести большие изменения в способ навигации, сделав его сценой WYSIWYG. Для людей было бы полезнее, если бы существовали алгоритмы, которые могли бы напрямую указывать людям, куда идти, упрощая вождение и упрощая навигацию.

Многие автомобили теперь имеют камеры, будь то передняя часть или задняя часть, и часто можно получить видеоданные. Накладываем рассчитанный алгоритмом ИИ эффект на видео, чтобы подсказать людям, как пройти.

AutoNavi выпустила навигационный продукт с дополненной реальностью в апреле этого года. Один из продуктов является улучшением реальной жизни. Он скажет вам, что вы должны держаться этой линии и продолжать движение или поворот. Будет подсказка о давлении в линии и стрелка скажет вам. Поверните направо перед вами.

В этом изделии, помимо направляющих, есть и другие функции. Например, также была добавлена ​​функция предупреждения о столкновении впереди идущего автомобиля, которая будет оценивать расстояние и скорость впереди идущего автомобиля, что поможет всем безопасно управлять автомобилем. Другие вещи также могут отображаться более интуитивно понятным способом, например, ограничения скорости, электронные глаза и пешеходные переходы.Если вы видите кого-то впереди, вам также будет подсказка.

Вышеуказанные функции могут показаться не такими уж сложными, но их трудно реализовать. Зачем? Поскольку мы хотим, чтобы каждый мог использовать это сразу же, это низкая стоимость. Это не то же самое, что автономная система вождения. С точки зрения сенсора, мы делаем один сенсор и недорогую камеру. С вычислительной точки зрения система автономного вождения может использовать выделенный чип мощностью в несколько сотен ватт, а для нас требуемая вычислительная мощность составляет лишь одну пятую от мощности обычного мобильного телефона.

Позвольте мне показать вам пример навигации с дополненной реальностью, которая является результатом фактического алгоритма, В этом примере есть обнаружение транспортных средств, сегментация полосы движения и расчет направляющей линии. Как только что упоминалось, высокая производительность (низкая вычислительная мощность) является серьезной проблемой, поэтому мы должны полностью учитывать эффективность вычислений при разработке алгоритмов, включая различные средства, такие как сжатие моделей, оптимизация обучения малых моделей и сочетание обнаружения и отслеживания. Многоцелевые модели суставов, слияние с традиционной GPS-навигацией и т. д. требуют выполнения нескольких действий в одной модели.

Реальный мир очень сложен, и чтобы добиться качественного и эффективного создания карт или точного позиционирования и навигации, предстоит еще много работы с точки зрения зрения. Я надеюсь, что благодаря приведенному выше введению вы лучше поймете применение визуальных технологий в картах AutoNavi и сфере путешествий, а также лучше поймете миссию AutoNavi.

Во многих случаях нам нужно подключиться к реальному миру или понять реальный мир, чтобы сделать путешествие лучше. Я надеюсь, что это можно будет сделать как можно скорее, чтобы, когда каждый на самом деле использует приложение AutoNavi, он мог почувствовать изменения, вызванные технологическим прогрессом. Я остановлюсь здесь сегодня, спасибо всем.

Следите за AutoNavi, чтобы найти больше профессионального контента в области технологий для путешествий.