На конференции разработчиков искусственного интеллекта 2018 года (AI NEXTCon) Хэ Ренцин, руководитель направления искусственного интеллекта доставки Meituan, рассказал о последних достижениях технологии машинного обучения Meituan в области мгновенной доставки, а также о том, как использовать большие данные и методы машинного обучения для создания Пара Способность восприятия различных автономных сценариев в реальном мире может восстанавливать и предсказывать детали процесса распределения, тем самым повышая точность всей системы распределения.
Происхождение системы распространения Meituan "Super Brain"
В 2014 году загорелся научно-фантастический фильм "Супертело" со Скарлетт Йоханссон в главной роли. В фильме главная героиня Люси случайно проглотила большое количество загадочного наркотика под кодовым названием "CPH4". Обладая обычными сверхспособностями, она может воспринимать, понимать и управлять миром по-новому (например, управлять радиоволнами) и, наконец, становится сверхличностью во времени и пространстве.
Это глубокое восприятие, понимание и контроль реального мира очень согласуется с целью восприятия, понимания и контроля системы распределения ИИ на сцене распространения. Можно сказать, что ИИ, который Meituan намеревается создать, является «супермозгом» системы распределения. Поэтому внутри компании мы называем систему доставки ИИ системой доставки «Супермозг».
Мгновенная доставка быстро растет по всему миру
В последние годы, опираясь на доставку еды, бизнес мгновенной доставки вызвал волну бурного развития по всему миру.В мире появилось много стартапов, среди которых известные иностранные компании включают Uber Eats (Global) в США и Deliveroo в Соединенном Королевстве, индийская Swiggy, Zomato (инвестированная Meituan и Ali соответственно), индонезийская go-jek и т. д. Помимо типичных представителей, таких как Meituan Takeaway, Ele.me и Didi Takeaway, существуют также стартапы, ориентированные на сервисы мгновенной доставки, такие как Flash Delivery, UU errands, Dada, DianwoDa и др.
Эта глобальная вспышка иллюстрирует две проблемы:
- «Ленивый» — это человеческая природа. Доступное, удобное и быстрое обслуживание является обычным требованием людей, особенно в том, что касается «еды», еда на вынос стала высокочастотным жестким требованием.
- Бизнес-модель доставки еды вполне осуществима. Взяв в качестве примера Meituan Takeaway, общий доход в первой половине 2018 года составил 16 миллиардов долларов, что означает одновременный рост на 90%. Согласно данным, опубликованным Uber, в первом квартале 2018 года на долю Uber Eats приходилось 13% всего бизнеса.
Бизнес-модель мгновенной доставки
Доставка «точно в срок» — это услуга быстрой доставки со временем доставки менее 1 часа и средним временем доставки около 30 минут. Такая быстрая и своевременная доставка объединяет традиционные онлайн-транзакции электронной коммерции и офлайн-логистику и дистрибуцию (два традиционно четко разделенных бизнеса) в единое целое, формируя четвертичные отношения, в которых переплетаются пользователи, продавцы, райдеры и платформы.
Его интеграция беспрецедентно тесна и проникает практически во все звенья. Взяв, к примеру, поиск и сортировку на вынос, во второй половине дня в поиске и рекомендации пользователей можно увидеть больше продавцов, потому что в это время пропускная способность достаточна, и могут быть предоставлены услуги доставки на большие расстояния, которые могут не только лучше удовлетворить потребности пользователей, Увеличьте количество заказов для продавцов и увеличьте доход райдеров.
Основными показателями мгновенной доставки являются эффективность, стоимость и опыт, которые также формируют бизнес-модель мгновенной доставки. Проще говоря, его можно разделить на следующие этапы:
- Во-первых, повышается эффективность доставки.
- Позвольте гонщикам доставлять больше заказов в единицу времени и приносить больше пользы.
- Тогда стоимость доставки снижается
- Более высокая эффективность, с одной стороны, увеличивает доход райдеров, а с другой стороны, снижает среднюю стоимость заказов.
- Затем улучшается пользовательский опыт
- Низкая стоимость позволяет пользователям (продавцам) пользоваться лучшими услугами доставки по более низким ценам, тем самым обеспечивая лучший пользовательский опыт.
- Дальнейшее повышение эффективности и формирование цикла
- Улучшенный пользовательский опыт позволяет большему количеству пользователей (продавцов) собираться, увеличивать масштабы и плотность, а также повышать эффективность распределения.
Таким образом, формируется положительный цикл, и постоянно создается больше ценности для бизнеса. Роль технологии состоит в том, чтобы ускорить этот позитивный цикл.
Система доставки Meituan "Super Brain"
В настоящее время большая часть интернет-технологий направлена на исследования и разработку онлайн-продуктов и систем, и весь процесс может быть завершен онлайн, что является самым большим отличием и проблемой технологии ИИ в распространении. Проще говоря, технологии ИИ, обычно используемые в онлайн-продуктах, таких как поиск, рекомендации, распознавание изображений и голоса, не очень полезны, потому что распространение должно выполняться по одному в Интернете, что требует, чтобы технология ИИ могла противостоять сложным реалиям. В физическом мире мы должны уметь глубоко воспринимать, правильно понимать и точно предсказывать, а также принимать сложные решения в одно мгновение.
Чтобы удовлетворить эти требования, мы создали систему распределения Meituan «Super Brain», которая включает в себя следующие аспекты:
- Обработка больших данных и вычислительная мощность
- Алгоритмические данные и вычислительные платформы: включая вычисление признаков в реальном времени, автономную обработку данных, платформы машинного обучения и т. д.
- Формировать глубокое восприятие мира
- Система LBS: Обеспечивает правильное местоположение (пользователь/бизнес/гонщик) и правильную навигацию между двумя точками.
- Мультисенсоры: обеспечивают позиционирование в помещении, уточненную характеристику сцены и распознавание состояния движения водителя.
- Правильное понимание и точный прогноз
- Оценка времени: Предоставление точных оценок времени всех ссылок доставки
- Другие оценки: оценки продаж, оценки мощностей и т. д.
- принимать сложные решения
- Система планирования: многопользовательская и многоточечная система планирования в реальном времени для принятия решения об отправке заказа: кто будет доставлять? Как отправить?
- Система ценообразования: система динамического ценообразования в режиме реального времени для принятия решений о ценообразовании: сколько берут пользователи? Сколько стоит всадник?
- Система планирования: система планирования распределительной сети для завершения планировочных решений: как разделить сайт? Как работает емкость?
Технические проблемы машинного обучения
Как построить систему ИИ, которая работает в реальном физическом мире, — наша самая большая проблема. Применительно к направлению машинного обучения проблемы включают следующие аспекты:
-
Достаточно высокая точность и достаточно мелкая детализация
- Требования ко времени: с одной стороны, есть периодические изменения, такие как утро, полдень и вечер, рабочие праздники и сезонные изменения;
- Требования к пространству: с одной стороны, уникальные характеристики различных деловых районов, таких как центральный деловой район;
- Требования к надежности: способность справляться с различными неопределенностями, такими как изменения погоды, изменения трафика и т. д.
-
Огромная проблема качества данных в автономном режиме
- Громкий шум: например, дрейф позиционирования GPS, особенно вблизи высоких зданий, не говоря уже о том, что GPS практически недоступен в помещении.
- Неполные: например, чрезвычайно сложно получить данные о кухне продавца, данные о ресторанах и другие данные платформы.
- Высокая сложность: сценарии доставки разнообразны и нестабильны, постоянно меняются со временем, погодными и дорожными условиями.
Основной параметр ETA распределительной системы
ETA (расчетное время прибытия) — очень важный параметр в системе распределения, который напрямую связан с пользовательским опытом и стоимостью распределения и напрямую влияет на окончательное решение системы планирования и системы ценообразования.
Для различных параметров длительности, участвующих в заказе (как показано в правой части рисунка выше), видно, что ключевых узлов более дюжины, из которых длительность ключа достигает семи. Эти продолжительности включают в себя несколько сторон, таких как гонщики (забор-забор-доставка), продавцы (обед вне дома) и пользователи (доставка), и должны пройти через внутренние и наружные переходы между сценами, поэтому проблемы очень сложны. высокий.
С помощью методов машинного обучения мы сделали точные прогнозы практически по всем аспектам доставки еды. Восприятие пользователя, очевидно, представляет собой предполагаемое время доставки, которое проходит через несколько ссылок, список продавцов (с точки зрения времени доставки, чтобы пользователи могли лучше выбирать продавцов), предварительный просмотр заказа (чтобы дать пользователям точное ожидаемое время доставки), в режиме реального времени статус (в режиме реального времени после размещения заказа) Обратная связь последний срок доставки). Конечно, есть еще много частей, которые пользователи не могут видеть, например, время, когда продавец подает еду, время, когда покупатель прибывает в магазин, и время доставки. Среди них время доставки имеет относительно большую связь с пользователями, и это также очень интересно, что будет подробно описано ниже.
Точная оценка здания и этажа: время доставки
Под временем доставки понимается время, за которое всадник доставляет еду пользователю и уходит после того, как всадник прибывает к пользователю.На самом деле необходимо учитывать расчет в трехмерном пространстве (наверху-внизу). Точная оценка времени доставки имеет два важных значения: во-первых, объективно измерить сложность доставки и предоставить разумные субсидии пассажирам, а во-вторых, рассмотреть влияние последующих заказов на пассажиров, чтобы предотвратить необоснованное планирование и привести к сверхурочной работе для других заказов.
Целью времени доставки является достижение точной детализации зданий и этажей, которую можно разбить на следующие этапы:
- Точное разрешение адресов (с точностью до здания/квартиры/этажа)
- Точность адреса должна быть выше уровня 5 (уровень 4: улицы, уровень 5: здания), и лишь немногие отечественные компании имеют такой уровень уточнения данных.
- Уровень безопасности данных очень высок.Мы проделали большую работу по десенсибилизации, а также выполнили различные меры по защите и изоляции данных, чтобы обеспечить конфиденциальность пользователей и безопасность данных.
- Различные выражения и деформации адресной информации требуют сильных технических возможностей NLU.
- срок доставки
- Идентификация «входящий-исходящий» осуществляется по траектории движения гонщика, проводится большой объем работы по очистке данных.
- Подсчитывается время доставки каждой степени детализации, и данные каждой детализации можно быстро найти в древовидной модели.
- Поскольку точность прогнозирования - это здания и этажи, данные очень разрежены, и трудно выполнить статистику напрямую.Необходимо решать проблемы разреженности и сглаживания данных с помощью различного сглаживания данных и оценки регрессии.
- Нижестоящие бизнес-приложения
- Укажите время доставки здания + размер этажа для планирования и ценообразования бизнеса. Как видно из приведенного выше рисунка, в разных зданиях разница между сроками сдачи разных этажей все же очень очевидна.
- В частности, этаж и время доставки не связаны линейно. Мы также подробно исследовали поведение пассажиров при принятии решений и обнаружили, что пассажиры будут учитывать время ожидания лифта. Пассажиры на нижних этажах, как правило, поднимаются по лестнице. , а те, кто на верхних этажах, поднимаются на лифте.
Видно, что существует множество факторов, влияющих на принятие решений в реальном мире, и в настоящее время мы делаем недостаточно. Например, время доставки также может быть дополнительно уточнено, например, точная оценка времени, когда пассажир должен подняться наверх, время, чтобы спуститься вниз, и время ожидания, что фактически может соответствовать процессу доставки еды продавцом. это не делается в основном из-за отсутствия данных.У продавцов фактически есть две операционные данные (прибытие в магазин и получение еды), которые могут помочь нам сделать более точные оценки, но есть только одна операция (доставка) в ссылка пользователя.
Взяв этот пример, мы фактически пытаемся проиллюстрировать, насколько важна для нас полнота данных. Проблема данных, офлайн-бизнес на несколько уровней выше, чем онлайн-бизнес.
Одни из самых важных данных в доставке: карты
Важность карт для доставки несомненна (местоположение и навигация не точны, как работает доставка?), а вышеупомянутая 5-уровневая адресная библиотека — это только ее часть. Цели карты распределения можно резюмировать в следующих двух пунктах:
- правильное местоположение
- Живой раздел: положение гонщика в реальном времени.
- Статическая часть: точный адрес и местонахождение пользователя и бизнеса.
- правильная навигация
- Правильное расстояние и маршрут между двумя точками.
- Быстрое реагирование на чрезвычайные ситуации (перекрытие дорог, ограничения на поездки).
На самом деле очень интересно сравнивать требования к картам дистрибуции, экспресс-доставки, такси и других отраслей по горизонтали, это очень полезно для построения технологии карты дистрибуции.
Мгновенная доставка VS логистический экспресс: мгновенная доставка значительно больше зависит от карт, чем логистический экспресс
Мгновенная доставка VS индустрия туризма: преимущества и накопление производителей карт в автомобильной навигации трудно использовать в сценарии мгновенной доставки.
Из сравнения этих двух аспектов видно, что в бизнесе мгновенной доставки значение циклических карт очень велико, в то же время многие проблемы действительно очень специфичны для отрасли и не могут быть эффективно решены с помощью технологии карты вождения. Таким образом, необходимо построить набор решений для мгновенной доставки бизнес-карт.
Коррекция местоположения на основе данных регистрации: точка доставки
Как было сказано выше, направлений для карты доставки много, в этот раз я остановлюсь на работе «майнинг точки доставки», связанной с местоположением пользователя. Сначала посмотрим на текущую основную проблему: в информации о местоположении пользователя много ошибок, например:
Ошибка выбора пользователя
В левой части приведенного выше рисунка сообщество будет иметь этап 1, этап 2 ~ этап N и т. д. Пользователи могут ошибаться при выборе POI (например, этап 1 выбрал этап 2). Географическое положение этих двух объектов очень далеко. прочь, что легко вызвать райдеры. Таким образом, когда заказ отправляется в систему распределения, нам нужно выполнить коррекцию координат пользователя, чтобы направить гонщика в правильное положение.
Данные POI не детализированы
Справа на изображении выше пользователь изначально находился в здании xx в районе xx, но выбрал только относительно приблизительную информацию о местоположении в районе xx. На самом деле очень сложно найти конкретное xx здание в сообществе.Вы можете подумать о своем собственном сообществе, просто назовите номер здания, знаете ли вы, где оно находится, не говоря уже о том, если это большая ночь в здании, где Вы не знаете? Знакомый район. По этой причине, с одной стороны, может быть, что выбор пользователя неточен, а другая возможность заключается в том, что на карте нет информации о POI конкретных зданий.
В фактической доставке мы все требуем, чтобы гонщики входили в систему после доставки, что будет накапливать большой объем отчетных данных, что очень полезно для последующего уточненного майнинга. Вы можете сначала взглянуть на исходные данные, которые мы собрали (рисунок выше). Хотя они все еще очень беспорядочны, вы уже можете видеть, что они содержат чрезвычайно высокую ценность. В частности, есть три аспекта:
- Большой объем данных
- Десятки миллионов заказов каждый день, миллиарды данных о траекториях.
- Он может полностью покрыть дверь каждой ячейки/здания/блока.
- Различные размеры
- Помимо регистрации пассажиров и данных о траектории, у нас есть множество пользовательских, деловых и картографических данных.
- Несколько измерений данных могут быть проверены перекрестно, чтобы эффективно избежать шума данных и повысить точность результатов интеллектуального анализа данных.
- Полные данные
- Локальные данные (пользователей и продавцов) достаточно плотны, а достоверность относительно высока.
Техническая практика майнинга точки доставки: проблемы
В самом процессе интеллектуального анализа данных, по сути, нет никакой «высокой» нирваны, и нельзя использовать популярный метод End2End, в основном необходимо разобрать каждое звено и выполнить сплошную работу по различным базовым задачам. Процесс делится на следующие этапы: (1) группировка на основе адресов, (2) шумоподавление данных, (3) агрегация данных, (4) оценка достоверности. Среди них основные технические проблемы в основном заключаются в обеспечении качества и охвата интеллектуального анализа данных в различных сценариях, В частности, есть три основные проблемы:
- Шумоподавление данных
- Существуют различные источники шума данных, в том числе дрейф GPS, неправильные действия водителя и незаконные операции. С одной стороны, выполняется специальная обработка по причинам шума (например, некоторые мошеннические действия), а с другой стороны, преимущества плотности и объема данных должны быть полностью использованы, и значительный объем данных все еще должен поддерживаться после обработки. максимальное удаление лишнего. Также очень важно иметь возможность одновременно использовать данные других размерностей для проверки, можно даже сказать, что разнообразие и ортогональность данных определяют верхний предел того, что мы можем сделать.
- агрегация данных
- Плотность застройки в разных районах совершенно разная и обладает сильным свойством локальности.Используя обычные методы кластеризации, трудно добиться однородных параметров.Необходимо найти алгоритм кластеризации, который не слишком сильно зависит от размера выборки установлен и нечувствителен к шумоподавлению.
- Проблема с дублирующимся именем
- Это подзадача объединения POI, определяющая, следует ли объединять две информации POI. Это чаще встречается в адресах пользователей.Информация об адресе, предоставленная пользователем, одинакова, но на самом деле это два места. В этом случае наш принцип обработки заключается в том, что, с одной стороны, исправленные координаты больше соответствуют ситуации регистрации гонщика, а с другой стороны, данные регистрации новых координат должны быть достаточно плотными.
Техническая практика майнинга точек доставки: эффекты
В настоящее время мы запустили версию пункта выдачи, которая активно корректирует положение пользователя, чтобы гонщик мог точнее и быстрее найти пользователя. Пока эффект все еще очень очевиден. Он включает в себя несколько аспектов:
- Дистанция доставки гонщика значительно уменьшена
- Как видно из левой части рисунка выше, доля расстояния доставки > 100 м до выхода в интернет (зеленый) очень высока (это расстояние приведет к тому, что фактическое местоположение будет отличаться в нескольких зданиях или даже в разных сообществах). то есть место, выбранное пользователем, неверно. Скорость относительно высока, что затрудняет доставку гонщикам и больше влияет на эффективность. После выхода в интернет (красный) дальность доставки значительно сокращается (среднее значение смещается влево), а также значительно снижается доля длинных хвостов > 100M.
- Высокоточная локация на уровне клеточных ворот
- Как видно из правой части рисунка выше, раскопанные нами точки доставки в основном соответствуют входным дверям здания. И существенных отклонений нет. Это качество в основном достигло цели, которую мы поставили перед собой, а также доказывает огромный потенциал распространения больших данных.
- Текущие проблемы и последующие точки оптимизации
- Как повысить его точность в качестве метода добычи и обнаружения POI? Здесь есть много точек оптимизации, таких как дедупликация (однозначное сопоставление информации о местоположении точки доставки), завершение и обновление информации о POI.
- Как расширить каналы передачи данных и добиться интеграции информации? В настоящее время основным каналом по-прежнему являются данные регистрации и траектории райдеров, что, очевидно, дает больше простора для фантазии, ведь по улицам и переулкам страны ежедневно развозят сотни тысяч райдеров. райдеры для активного сбора данных также является хорошей идеей строительства. Но если вы хотите сделать это хорошо, вам необходимо установить относительно замкнутую систему данных, включая отчетность, сбор, очистку, обработку, мониторинг и так далее.
Более точное распознавание сцен доставки: восприятие
Вышеупомянутая картографическая технология может решить проблему определения местоположения и навигации только на открытом воздухе. Однако в двух сценариях со стороны продавца (прибытие в магазин, получение еды) и со стороны пользователя (прибытие к покупателю, доставка) это фактически происходит в помещении. Знание того, где и что делают водители в помещении, а также что делают пользователи и предприятия, может решить множество практических проблем. Например:
Это техническое направление можно в совокупности назвать «ситуационной осведомленностью». Цель состоит в том, чтобы восстановить то, что произошло в реальном процессе доставки на месте доставки (в основном в помещении и неточность GPS). Конкретное направление показано на следующем рисунке:
Целью ситуационной осведомленности является достижение точного изображения сцены (верхняя часть рисунка выше), что включает в себя два аспекта работы:
- Точная характеристика распределительных узлов
- Некоторые из них были показаны в оценке ETA, но в основном она была основана на данных, сообщенных гонщиком, которые, очевидно, не могут быть очень точными, и для описания необходимо ввести более объективные данные. В настоящее время мы выбираем технологию геозоны WIFI и Bluetooth в качестве основного вспомогательного оборудования.
- Точная характеристика процесса доставки
- Пассажиры часто меняют режимы в процессе доставки. Например, в определенном сообществе может быть запрещено ездить на электромобилях, и водитель должен ходить пешком. Например, если пассажир остается в бизнесе в течение длительного времени, это должна быть ситуация ожидание еды (то же самое на стороне пользователя). причина). В настоящее время мы решили использовать распознавание состояния движения на основе датчиков в качестве основного средства.
Большинство этих данных поступают с мобильных телефонов, но с популяризацией различного интеллектуального оборудования, такого как устройства Bluetooth, интеллектуальные электромобили, интеллектуальные шлемы и другие устройства, мы можем собирать больше данных. Технология WiFi/Bluetooth и технология распознавания движения относительно развиты, здесь мы в основном говорим об общей ситуации, в этой статье мы не будем подробно ее обсуждать.
Для системы распределения более серьезной проблемой является баланс между требованием точности распознавания и стоимостью. У нас высокие требования к точности, ведь эти идентификации напрямую влияют на системы ценообразования, календарного планирования и отчетности, а эти низкоуровневые данные имеют массу проблем, вызванных низкой точностью.
Учитывая ограничения по стоимости, нам нужно относительно недорогое и универсальное решение.Технология, основанная на большом количестве развертываний сенсорного оборудования, очевидно, не применима к требованиям наших миллионов предприятий и десятков миллионов зданий. По этой причине, с точки зрения конкретных технологий, мы выбираем общие технические решения, такие как отпечатки пальцев WiFi, распознавание Bluetooth и распознавание статуса движения, Что касается отдельной технологии, по сути, академическое сообщество уже полностью изучило ее, и также есть много приложений (например, различные интеллектуальные браслеты и т. д.). Задача для нас состоит в том, чтобы объединить данные нескольких датчиков (и другие данные), чтобы обеспечить высокую точность распознавания. Конечно, чтобы решить проблему «наземной истины», необходимо развернуть какое-то стабильное и высокоточное интеллектуальное оборудование, которое очень полезно для технической итеративной оптимизации и оценки.
Суммировать
Ежедневный объем заказов Meituan превышает 24 миллиона, и компания уже занимает относительно лидирующую долю рынка. Meituan Delivery также построила ведущую в мире сеть мгновенной доставки, а также ведущую в отрасли интеллектуальную систему доставки Meituan, которая может просчитывать до 2,9 миллиарда маршрутов в час. Как сделать распределительную сеть более эффективной и улучшить взаимодействие с пользователем — очень сложная задача.Нам нужно решить большое количество сложных задач машинного обучения и оптимизации операционных исследований, включая прогнозирование ожидаемого времени прибытия, интеллектуальное планирование, оптимизацию карт, динамическое ценообразование. , восприятие сценариев, интеллектуальная работа и другие области. За последние три года исследования и разработки команды искусственного интеллекта доставки Meituan достигли замечательных результатов.Время доставки постепенно сократилось с одного часа до 30 минут, и оно все еще улучшается.Мы также надеемся помочь всем лучше питаться и жить лучше с помощью технологии ИИ.
Предложения о работе
В настоящее время бизнес мгновенной доставки находится в периоде бурного развития, появляются новые сценарии и новые технические проблемы, а команда быстро расширяется Нам срочно нужны старшие специалисты по машинному обучению, технические специалисты по оптимизации операционных исследований, LBS инженеры-алгоритмы и инженеры-алгоритмы НЛП. Мы с нетерпением ждем вашего добавления. Отсканируйте код, чтобы просмотреть сведения о вакансии, или отправьте свое резюме по адресуyewei05@meituan.com