Практика мультибизнес-моделирования в поисковом рейтинге Meituan

Поиск на домашней странице Meituan — это крупнейший портал распределения трафика для различных жизненных услуг в приложении Meituan, ежедневно предоставляющий различные услуги десяткам миллионов пользователей. Сортировка при поиске — это типичная проблема моделирования гибридной сортировки с несколькими службами, и в этом сценарии поиска с несколькими службами возникает много проблем. Эта статья посвящена оптимизации моделирования ранжирования нескольких бизнесов для мультибизнес-сценариев продавцов магазинов, и мы надеемся, что она будет полезна студентам, которые занимаются смежной работой.

введение

Миссия Meituan состоит в том, чтобы «помочь всем лучше питаться и жить лучше». Бизнес, осуществляемый приложением Meituan, включает в себя доставку еды, питание в магазине, покупку продуктов, выбор, гостиницу, путешествия, отдых и развлечения и другие жизненные услуги. Поиск на домашней странице Meituan — это крупнейший портал распределения трафика для различных жизненных услуг в приложении Meituan, ежедневно предоставляющий различные услуги десяткам миллионов пользователей. Сортировка при поиске Meituan — это типичная проблема моделирования гибридной сортировки с несколькими сервисами. Типичный сценарий поиска с несколькими сервисами заключается в том, что когда пользователь ищет местоположение, например «Ванцзин», потребности пользователя не очень ясны. В настоящее время Страница результатов поиска выглядит следующим образом Как показано на рисунке 1, приведенный ниже список предприятий будет содержать результаты различных предприятий, таких как рестораны, кинотеатры, места отдыха и развлечений, а также отели рядом с Ванцзин.Это сценарий смешанной сортировки для нескольких предприятий.

图1 美团搜索结果页面

В мультисервисных сценариях возникают следующие проблемы:

Поскольку между предприятиями есть общие черты и характеристики, как заставить модель учитывать эти две характеристики и добиться лучшего изучения данных. Например, кейтеринг в магазине очень чувствителен к характеристикам расстояния, в то время как бизнес туристических достопримечательностей относительно нечувствителен к характеристикам расстояния.
Бизнесы естественно имеют высокочастотные и низкочастотные характеристики (такие как доставка еды и путешествия), что приводит к дисбалансу количества мультисервисных выборок в обучающих данных модели.
У каждой компании часто есть свои основные цели. То, как достичь целей разных компаний, может в конечном итоге улучшить пользовательский опыт поиска.

В этой статье рассказывается о работе по оптимизации моделирования рейтинга нескольких предприятий в поиске Meituan. Мы в основном сосредоточены на сценарии нескольких предприятий продавцов в магазине. Последующий контент будет разделен на следующие четыре части: Первая часть предназначена для анализа иерархическая структура рейтинга поиска Meituan.Краткое введение, во второй части будет представлено мультисервисное моделирование слияния на многоканальном уровне слияния, в третьей части будет представлено мультисервисное моделирование сортировки модели точного расположения, последняя часть - это резюме и прогноз. Я надеюсь, что это может вдохновить или помочь студентам, которые занимаются смежной работой.

Введение в процесс сортировки

Процесс поисковой системы Meituan показан ниже на рисунке 2. Общий процесс разделен на уровень данных, уровень отзыва, уровень сортировки и уровень отображения. Слой сортировки разделен на следующие подразделы:

Черновой слой: Используйте относительно простую модель для начальной фильтрации набора кандидатов отзыва, чтобы достичь компромисса между эффектом сортировки и производительностью.
мультиплексный слой: Используйте функции слова-запроса и функции контекстной сцены для построения модели квот, управления количеством различных наборов бизнес-кандидатов и достижения точного понимания потребностей пользователей.
тонкий слой: используйте модель глубокого обучения с функциями миллиарда уровней, чтобы фиксировать различные явные и неявные сигналы, чтобы добиться точного прогнозирования оценок ранжирования элементов.
слой перестановки: Используйте небольшие модели и различные механизмы для упорядочивания точно организованных результатов для достижения точной оптимизации.
Неоднородный сортировочный слой: используйте модель глубокого обучения для сортировки разнородных кластеров, чтобы обеспечить высокую нагрузку нескольких сервисов.

Архитектура многоуровневой сортировки в основном предназначена для балансировки эффекта сортировки и производительности. Работа по оптимизации мультисервисного моделирования, упомянутая далее в этом документе, в основном представлена на уровне многоканального слияния и уровне точной организации.

图2 系统架构图

Практика мультисервисного моделирования

Модель мультисервисных квот (многоканальный уровень слияния)

С развитием бизнеса Meituan у Meituan Search есть доступ к таким услугам, как рестораны, магазины, отели и туризм. Для условий поиска с неоднозначными деловыми намерениями, такими как пользователи, выполняющие поиск «Wudaokou», необходимо всесторонне оценить деловые намерения пользователя на основе различных факторов, таких как пользователи, слова запроса и сценарии. Чтобы интегрировать результаты отзывов различных предприятий и предоставить L2 набор кандидатов с подходящей пропорцией, мы разрабатываем модель квот для нескольких предприятий, чтобы сбалансировать долю отзывов для нескольких предприятий. Этот метод объединения нескольких результатов отзыва на основе квоты очень распространен в сценариях поиска и рекомендаций, таких как поиск на домашней странице Taobao и рекомендация Meituan.

Чтобы обеспечить гибкий доступ к множественным отзывам и адаптироваться к развитию поискового бизнеса Meituan, мы продолжаем повторять модель квоты поиска. Итеративный процесс модели квот для нескольких предприятий Meituan будет подробно описан ниже.Модель квот для нескольких предприятий будет кратко называться MQM в остальной части статьи.

图3 多路融合过程

Одномерная целевая мультисервисная квота

Учитывая, что в больших результатах поиска есть несколько отзывов разных услуг, чтобы описать силу поискового запроса пользователя для отзыва трех услуг, мы применяем метод многоцелевого моделирования и выполняем процесс на основе того, является ли нажимается каждый отзыв или размещается заказ Моделирование, реализована первая версия мультисервисной модели квот MQM-V1. Модель выводит совместную вероятность клика и заказа для каждого отзыва как окончательное распределение квот. На уровне функций мы используем функцию измерения запроса, функцию измерения контекста, функцию перекрестного измерения и функцию измерения пользователя для описания персонализированных потребностей пользователей в реальном времени в различных сценариях. Структура модели MQM-V1 показана на рисунке 4 ниже.

图4 MQM-V1 模型结构图

После запуска версии MQM-V1 общий рейтинг кликов в Интернете составил +0,53%, а уровень покупок для каждого бизнеса был в основном одинаковым.

Двумерная целевая мультисервисная квота

Благодаря непрерывной итерации стратегии отзыва Dasou не только представила методы отзыва, разделенные по бизнесу, но также внедрила разнородные методы отзыва для нескольких предприятий, такие как векторный поиск и поиск географических соседей, что привело к постоянному увеличению стратегий отзыва Dasou. , мультисервисная модель квот также сталкивается с проблемой холодного запуска, связанной с новым источником отзыва. При этом для усиления персонализации модели мультисервисных квот мы ссылаемся на метод моделирования последовательности поведения пользователя в [6]. Таким образом, различия между этой версией MQM-V2 и MQM-V1 заключаются в следующем:

С точки зрения целей моделирования, одномерная цель, выбранная в режиме отзыва, обновляется до двумерной цели перекрестного умножения в режиме отзыва, что делает детализацию многоканального слияния более тонкой и точной. .
Модуль моделирования последовательности поведения представляет Transformer Layer.
Чтобы решить проблему «холодного старта» доступа к новым источникам отзывов, мы вводим слой искусственного опыта, включая предыдущую бизнес-статистику и историческую статистику, а комплексные выходные данные модели определяют квоту для каждого отзыва.

图5 MQM-V2 模型结构图

После запуска версии MQM-V2 увеличились показатели различных бизнес-показателей, среди которых показатель посещений и покупок в поездках +2%, показатель посещений обедов +0,57%, показатель посещений общих товары и отели остаются прежними.

Мультисервисная модель сортировки (уровень точной сортировки)

Усовершенствованная модель ранжирования Meituan Search была обновлена до модели DNN.До конца 2019 года усовершенствованная структура модели ранжирования Meituan Search была основной структурой парадигмы Embedding&MLP в отрасли.В этот период мы также опробовали структуры моделей, предложенные таких как PNN[1], DeepFM[2], DCN[3], AutoInt[4], FiBiNet[5] и т. д.

По мере прохождения итерации мы обнаруживаем, что оптимизация для конкретных бизнесов трудно играть роль в модели тонкой организации.Чтобы учесть характеристики каждого бизнеса и поддерживать более эффективную целенаправленную итеративную оптимизацию каждого бизнеса, нам нужно исследовать структуру модели, чтобы адаптироваться к поиску группы красоты для таких мультисервисных сценариев. Далее будет представлена история развития модели тонкой организации в мультибизнес-моделировании.В последующих частях статьи Multi-Business Network сокращенно обозначается как MBN.

Независимое разделение подсети

Учитывая, что отели и туризм составляют небольшую долю трафика в стратегии ранжирования Meituan в большом поиске, а оптимизацию для небольшого трафика трудно отразить в текущей унифицированной структуре модели Embedding&MLP, мы попробовали ручную настройку, как показано на рис. 6. Структура модели башни MBN-V1: Основная сеть повторно использует текущую структуру модели. Для конкретной ситуации, пожалуйста, обратитесь к части моделирования последовательности поведения в [6], добавляя независимые подсети отелей и туризма; вход подсети отеля включает в себя уникальные особенности отеля и скоринговый результат основного сеть, а вход туристической подсети включает в себя уникальные особенности туризма, скоринговый выход основной сети, последний слой FC в основной сети, вход отеля и туристической подбашни отличаются, потому что бизнес-логика другая, что приводит к большой разнице в распределении данных.Это результат практики.Конечным результатом является взвешенный расчет трех выходов.и.

图6 MBN-V1 模型结构图

Для весовой части взвешенного суммирования мы задаем вес двумя способами:

Во-первых, использовать жесткую сегментацию, то есть вектор весов является разреженным вектором: для прогнозирования гостиничных продавцов выбирается только выход подсети отеля, а остальные аналогичны.
Во-вторых, использовать метод мягкой сегментации и использовать выходные данные мультисервисной модели квот в качестве значения веса.

Онлайн-эксперимент показал, что второй метод лучше первого.Мы считаем, что использование жесткой сегментации приведет к тому, что параметры филиала sub-tower будут обновляться только данными соответствующего бизнеса, а неравномерная пропорция данных каждого бизнеса приводит к плохому обучению, в то время как мягкая сегментация позволит достичь своего рода эффекта передачи знаний. По сравнению с унифицированной моделью Embedding & MLP конечный онлайн-эффект оказал положительное влияние на общий туризм: общий рейтинг кликов составляет +0,17%, а эффект от остальных деловых посещений и показателей покупок в основном такой же.

Самообучающийся вес подсети

Опираясь на первоначальный положительный эффект первой версии мультисервисной модели тонкой организации, мы продолжаем добавлять суббашню для продовольственного бизнеса, при этом учитывая, что МБН-В1 опирается на выдачу квоты модели, изменение модели квоты может повлиять на модель тонкой организации.Эффект имеет влияние.В ответ на эти факторы мы запустили вторую версию мультисервисной модели MBN-V2.Структура модели показана на Рисунок 7. Отличия от MBN-V1 следующие:

Добавьте отдельную подсеть для бизнеса Gourmet.
Разделите модель точного распределения и модель квот и интегрируйте подсеть генерации весов в модель точного расположения.Ввод этой подсети в основном представляет собой некоторые функции измерения запроса и измерения контекста.

图7 MBN-V2 模型结构图

Эффект онлайн-эксперимента: по сравнению с MBN-V1, MBN-V2 имеет общий рейтинг кликов + 0,1%, а влияние деловых посещений и количество покупок в основном такое же.

Адаптация функций подсети

На основе второй версии модели мы дополнительно добавили в комплексную бизнес-суббашню.По мере увеличения количества подсетей ввод подсети в настоящее время проектируется вручную, что требует много времени на офлайн-эксперименты. Учитывая, что текущая структура многозадачной вспомогательной башни очень похожа на многозадачное обучение в отрасли, мы также пытаемся внедрить многозадачную структуру обучения в отрасли; в то же время мы анализируем результаты взвесьте подсеть в MBN-V2 и обнаружите, что выходные веса различны.Выход коммерческих продавцов аналогичен, поэтому целевая оптимизация бизнеса не будет очевидной. На основе приведенных выше частей мы повторили третью версию MBN-V3 для тонкой настройки мультисервиса.Структура показана на рисунке 8 ниже, а улучшения заключаются в следующем:

图8 MBN-V3 模型结构图

В дополнение к всеобъемлющей подсети используется многозадачная структура обучения MMoE [7] для автоматического изучения представления признаков и вывода его в верхнюю подсеть, тем самым заменяя ввод искусственно созданной подсети.
В дополнение к основному LambdaLoss, рассчитанному на основе онлайн-отзывов пользователя, функция потерь модели тонкой организации дополнительно добавляет классификационную кросс-энтропийную потерю бизнеса, чтобы достичь цели прогнозирования оценки элемента бизнес-элемента, соответствующая бизнес-подбашня имеет наибольший вес.

Результаты онлайн-экспериментов: по сравнению с MBN-V2, MBN-V3 имеет такой же общий рейтинг кликов, коэффициент деловых посещений для гурманов составляет + 0,36%, общий коэффициент деловых посещений составляет + 1,07%, коэффициент деловых посещений отелей составляет + 0,27. %, а коэффициент визита в туристический бизнес +0,27%, коэффициент покупки +0,35%.

Оптимизация выражений мультисервисных функций

Хотя структура многозадачного обучения MMoE применялась во многих сценариях в отрасли, а также прошла эффективную проверку в наших сценариях мультисервисного моделирования, мы продолжаем следовать передовым тенденциям отрасли и внедряем ее в сочетании с бизнес-сценариями. .

Мы попробовали структуру PLE[8], предложенную Tencent, и доработали мультисервисную точную схему MBN-V4. PLE можно рассматривать как улучшенную версию MMoE.Он имеет свой собственный экспертный уровень для каждой задачи, а также общие экспертные уровни между различными задачами.По сравнению с MMoE, который представляет собой взвешенную сумму всех экспертных результатов, ввод Подзадача PLE взвешенная сумма уникальных экспертных и общих экспертных результатов подзадач облегчает изучение характеристик бизнеса; в то же время, исходя из соображений производительности, мы выбираем одноуровневую структуру PLE или CGC, структура показана на рисунке 9 ниже:

图9 MBN-V4 模型结构图

Эффект онлайн-эксперимента: по сравнению с MBN-V3, MBN-V4 имеет общий рейтинг кликов + 0,1%, уровень деловых посещений для гурманов + 0,53%, а остальные колебания уровня деловых посещений остаются прежними; мы визуализируем экспертные веса MMoE и CGC, как показано на рисунке ниже. Как показано на рисунке 10, анализ показал, что экспертный вес структуры CGC меньше и более стабилен, чем дисперсия экспертного веса MMoE среди нескольких образцов одного и того же бизнеса. , что указывает на то, что CGC имеет больше преимуществ в представлении функций, чем MMoE.

图10 MMoE、CGC 专家权重分析

Резюме и перспективы

С конца 2019 года, чтобы решить актуальную проблему сортировки отзывов для нескольких предприятий, Meituan Search провела много исследований, расширив поддержку нескольких предприятий на всех уровнях, от разработки до алгоритма и формы продукта. Уровень алгоритма сортировки в основном оптимизируется на уровне слияния с многосторонним отзывом и на уровне точной сортировки.

Многоканальный слой слияния в основном завершает процесс скрининга результатов поиска от релевантных результатов до высококачественных результатов.Он должен решить проблему слияния и усечения различных методов отзыва (текстовый отзыв, отзыв рекомендаций, векторный отзыв) и различных бизнес-процессов. отзыв результатов, который напрямую определяет, что пользователи могут перейти к набору результатов-кандидатов. Среди них наиболее важной проблемой является оценка силы спроса пользователя на каждый бизнес и качество отзыва каждого бизнеса, а также определение соответствующих уточненных критериев доступа для каждого бизнес-результата и результата отзыва.

Модель мультисервисных квот дает долю каждого отзыва и каждой услуги, которые должны быть включены в уточненный рейтинг, путем интеграции запросов пользователей в реальном времени, исторической статистической информации запроса, информации контекста поиска и качества каждого отзыва. источник. Модель обеспечивает разнообразие и качество результатов уточненного набора кандидатов в различных сценариях, реализует менее навязчивый доступ к новым сервисам и новым методам отзыва, а также снижает стоимость доступа к сервисам и отзывам. В то же время он также предоставляет априорные веса, которые объединяют результаты каждой подсети услуг для сетевой структуры точно организованных уровней и услуг.

На основе многоканального уровня слияния уровень точной сортировки дополнительно выполняет точную сортировку, моделирование и оценку результатов поиска по множеству услуг. Потребности пользователей столь же разнообразны, как и бизнес Meituan.Чтобы полностью смоделировать потребности в различных сценариях, тщательно организованная модель мультисервисной сортировки была основана на базовых данных (обогащая характеристики подсервисов), структура модели и интеграция бизнес-целей. Структура модели и соответствующее целевое слияние непосредственно моделируют различные крупные и малые предприятия, сценарии и соответствующие бизнес-цели в сегментах, что эффективно облегчает проблему малого бизнеса и сценариев малого бизнеса, перегруженных образцами крупного бизнеса в унифицированном моделировании. В то же время модель поддерживает быструю итерацию новых и старых бизнесов, и каждый бизнес может легко и независимо повторять функции, структуры моделей и соответствующие цели.

Вышеупомянутая оптимизация охватывает весь онлайн-трафик, а удобство поиска для пользователей и ценность каждого бизнеса были значительно улучшены, но предстоит еще много работы по оптимизации.

Использование уникальных бизнес-функций: В настоящее время мы добавляем уникальные бизнес-функции для некоторых компаний, а другие компании дают значения по умолчанию для этих отсутствующих уникальных функций, но это приведет к большому количеству избыточных вычислений, и эта часть оптимизирована как с точки зрения эффекта, так и с точки зрения производительности. , пространство.
Образец несбалансированного обучения: Объем данных о разных предприятиях сильно различается в поиске Meituan.Как сделать так, чтобы модель лучше изучала распределение малых предприятий, мы изучаем такие методы, как трансферное обучение и метаобучение.
Многоцелевая оптимизация: Поиск Meituan не только учитывает поисковый опыт пользователя, но и служит стратегическим целям каждого бизнеса Meituan, поэтому основные показатели оптимизации каждого бизнеса не обязательно одинаковы, а многоцелевая оптимизация также является направлением непрерывной исследование.

Работа, описанная в этой статье, направлена на поиск и сортировку мультисервисных продавцов в Meituan.В то же время, с развитием товарных бизнесов, таких как выбор, покупка продуктов, Tuanhaohuo и срочные продажи, мы также проводим мульти- сервисное смешивание товарных категорий и товаров разных продавцов.Мультисервисная работа смешанной компоновки.

использованная литература

[1] Product-based neural networks for user response prediction
[2] DeepFM: A Factorization-Machine based Neural Network for CTR Prediction
[3] Deep & Cross Network for Ad Click Predictions
[4] AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks
[5] FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction
[6] Практика Transformer в поисковом рейтинге Meituan
[7] Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts
[8] Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized Recommendations

об авторе

Peihao, Xiao Yao, Xiaojiang, Jiaqi, Chen Sheng, Yunsen, Yongchao, Liqian и другие — все из отдела поиска и НЛП платформы Meituan.

Прочтите другие подборки технических статей от технической команды Meituan

|Ответьте на ключевые слова, такие как [акции 2020 г.], [акции 2019 г.], [акции 2018 г.], [акции 2017 г.] в диалоговом окне строки меню общедоступной учетной записи, и вы сможете просмотреть коллекцию технических статей технической группы Meituan в течение годы.

| Эта статья подготовлена технической командой Meituan, авторские права принадлежат Meituan. Добро пожаловать на перепечатку или использование содержимого этой статьи в некоммерческих целях, таких как обмен и общение, пожалуйста, укажите «Содержимое воспроизводится технической командой Meituan». Эта статья не может быть воспроизведена или использована в коммерческих целях без разрешения. Для любой коммерческой деятельности, пожалуйста, отправьте электронное письмо по адресуtech@meituan.comПодать заявку на авторизацию.