Блюда являются ключевыми элементами процесса транзакций на вынос, и понимание блюд также является ключом к согласованию спроса и предложения на вынос. Сегодня мы будем публиковать по три статьи за раз, чтобы систематически представить построение и применение графа знаний Meituan по доставке еды. «Итерация и применение графа знаний о доставке еды Meituan» представит общую систему графа знаний о доставке еды, включая категории блюд, стандартные блюда, основные атрибуты продуктов питания и атрибуты бизнес-темы продуктов питания. «Стандартизация строительства и применения товаров на вынос» будет посвящена идеям построения, техническим решениям и бизнес-приложениям стандартизации блюд на вынос. Поскольку бизнес-характеристика доставки еды заключается в том, чтобы объединить ее в один заказ, в статье «Исследование и применение сопоставления пакетов для доставки еды» будет конкретно представлена итерация и практика применения технологии сопоставления пакетов на вынос. Я надеюсь, что это может вдохновить или помочь студентам, которые занимаются смежной работой.
Эта статья является первой статьей в серии графов знаний о еде на вынос. В этой статье систематически представлена архитектура этикеток графа знаний Meituan о еде на вынос, включая целевые этикетки категорий блюд, стандартные названия блюд и основные атрибуты блюд (ингредиенты, вкусы, кухни). и т. д.) и атрибуты деловой тематики для гурманов (торговые вывески, классика категорий и т. д.). На техническом уровне приводится пример введения конкретного метода построения системы маркировки, например модели классификации, основанной на предварительном обучении BERT. С точки зрения применения, было введено специальное применение графа знаний о еде в бизнесе Meituan на вынос, включая определение характеристик блюд для поддержки комбинации комплексных меню и улучшение пользовательского опыта в таких услугах, как поиск и бизнес-рекомендации.
1. Предпосылки
Граф знаний, целью которого является описание различных сущностей и отношений между сущностями, существующими в реальном мире. В бизнесе доставки еды Meituan продукты питания являются основой для Meituan для предоставления услуг пользователям Построение графа знаний о продуктах питания может помочь нам предоставить пользователям более точные, более богатые и более персонализированные услуги питания. Кроме того, бизнес по доставке еды Meituan предоставляет пользователям услуги «домашнего» питания, в то время как бизнес общественного питания в магазине предоставляет пользователям услуги питания «в магазине», в то время как продавцы и блюда на вынос и в магазине в значительной степени пересекаются. также дает нам хороший «хват» для сравнения и анализа данных онлайн (сценарии еды на вынос) и оффлайн (прибытие в магазины).
В этой статье представлено построение графа знаний о еде на вынос, который основан на бизнес-данных о еде на вынос (данные о транзакциях на вынос, информация о этикетках продуктов, введенная продавцами, профессиональное описание PGC, комментарии пользователей UGC, изображения продуктов и т. д.) и за пределами сайта. данные (энциклопедия, рецепты и т. д.) Путем сбора и анализа была сформирована система классификации (этикетка категории продуктов питания) и стандартизированная система (этикетка стандартного названия блюд) для еды на вынос, а также для различных видов продуктов питания, построена система основных пищевых признаков, включающая вкусы и ингредиенты. В то же время, опираясь на бизнес-характеристики Meituan Takeaway, создайте систему атрибутов темы для продуктов для гурманов в бизнесе на вынос, таких как бизнес-знаки, бизнес-основа, классика категорий и т. Д. В настоящее время структура меток графа знаний о еде на вынос показана на рисунке 1 ниже:
График знаний о еде на вынос включает следующие четыре измерения этикеток (в качестве примера возьмем «Кунг Пао Цыпленок», как показано на Рисунке 2 ниже):
- тег класса: Включая основные продукты питания, закуски, блюда и другие категории, и в каждой категории было сформировано более 300 иерархических подкатегорий. Например, категория «Цыпленок Кунг Пао» — это «блюда». Теги категорий — это основная классификационная информация о продуктах для гурманов.В зависимости от категории основные атрибуты продуктов для гурманов также различаются. Например, категория «блюда» имеет различение «мясо и овощи» и «кухни», а категория «напитки и напитки» не имеет таких тегов-атрибутов.
- Стандартная этикетка с названием блюда: Этикетка с названием стандартного блюда в основном представляет собой стандартную информацию о продукте, например, стандартный продукт «Цыпленок Кунг Пао (вывеска, обязательный заказ)» - это «Цыпленок Кунг Пао». Из-за разнообразия продуктов, вводимых продавцами, создание стандартных этикеток для блюд позволило объединить одни и те же продукты.
- Основные свойства: В соответствии с различными категориями продуктов для гурманов создайте основные атрибуты, включая пищевые ингредиенты, кухню, вкус, методы производства, мясо и овощи и т. д. Например, кухня «Kung Pao Chicken» — это «сычуаньская кухня», ингредиенты — «куриная грудка» и «арахис», а этикетка для мяса и овощей — «мясо». Изучение основных атрибутов играет ключевую роль в нашем понимании товаров и обеспечивает основные характеристики данных с точки зрения бизнес-требований, таких как скрининг товаров, отображение и характеристика товаров.
- Свойства темы: Атрибут темы в основном отражает бизнес-тему еды, в том числе транзакционное поведение еды на вынос, позиционирование еды в бизнесе, похвалу еды в отзывах пользователей и т. д. Например, «Цыпленок Кунг Пао (под заказ)» является «фирменным блюдом» предприятия.
Выравнивание блюд включает в себя данные о блюдах, из онлайн-блюд на вынос, обзоров и рекомендуемых блюд, а также пакетов продавцов Meituan.
2. Потребности и проблемы
В настоящее время граф знаний о еде на вынос применяется к нескольким сценариям еды на вынос Meituan, таким как рекомендации, поиск, сопоставление пакетов, анализ операций и т. д. Углубленное развитие бизнеса также выдвинуло более сложные требования к построению и итерации графа знаний о продуктах питания, такие как:
- Продовольственные товары становятся все более и более разнообразными, и соответствующая карта знаний о продуктах питания должна быть все более и более уточненной и точной. Например, маркировка категорий графа знаний о продуктах питания началась с нуля, и была построена система маркировки категорий, включающая более 100 категорий. Однако с развитием бизнеса в некоторых категориях есть очевидные возможности для уточнения.
- Анализ графических тегов смещен в сторону анализа статических тегов.Для еды под тем же графическим тегом отсутствуют описания атрибутов темы, связанные с бизнесом. Например, «Арахис пьющего», который также содержит «арахис», более характерен для деликатесов, связанных с «арахисом», чем «Цыпленок Кунг Пао».
- График знаний о продуктах питания на вынос в основном описывает продукты питания на вынос, и продукты одного и того же продавца также могут отображаться в офлайн-кассе и других подразделениях магазина. Сопоставляя продукты для гурманов различных предприятий, можно улучшить описание продуктов питания продавца на карте знаний о продуктах питания на уровне организации продуктов питания, чтобы направлять работу продукта и продавца.
Чтобы удовлетворить потребности бизнеса, мы повторяем и оптимизируем теги классов и основные атрибуты; в то же время мы создаем атрибуты темы, связанные с бизнесом. Кроме того, у нас есть физически выровненные блюда на вынос и блюда по вызову. Среди них интеллектуальный анализ атрибутов темы, то есть интеллектуальный анализ графических знаний, связанных с бизнесом, представляет собой сложный процесс, требующий всестороннего рассмотрения бизнеса на вынос и атрибутов самих продуктов. Выравнивание блюд на вынос и блюд с приемом пищи требует всестороннего учета разнообразия блюд и унификации блюд.
Итеративные трудности графа знаний о еде на вынос в основном отражаются в следующих моментах:
- Не существует готовой системы для интеллектуального анализа бизнес-тематических атрибутов, в процессе построения требуется много работы по анализу и проектированию системы.
- Самое главное в анализе атрибутов темы — начать с потребностей пользователей, проанализировать точки спроса пользователей на товары и отразить их на уровне карты товаров для формирования соответствующих меток атрибутов темы. В то же время информация о товарах продавца — это динамический процесс, такой как продажи, поставки, этикетки товаров и т. д., и информация за два дня до и после может быть совершенно разной. Таким образом, анализ атрибутов бизнес-темы должен, с одной стороны, создавать относительно полную систему, а также должен адаптироваться к процессу динамического изменения бизнес-данных, что создает большие проблемы при анализе карт и сопоставлении спроса.
- Когда торговцы входят в блюда, для блюд существуют различные выражения, такие как различия в весе, вкусе, ингредиентах и т. д. одного и того же блюда. Когда блюда выровнены, эти выражения разнообразия должны быть сбалансированы, например, следует ли игнорировать фактор компонента. Однако в настоящее время нет готового стандарта выравнивания, на который можно было бы ссылаться.
3. Итерация графа знаний о еде на вынос
Из-за ограниченного объема эта статья в основном знакомит с классификацией блюд, выделением классических блюд по разным категориям, вкусам, ингредиентам, мясу и овощам, методам и здоровому питанию. Среди них источники данных и технологии, используемые в анализе меток графа, примерно такие, как показано в следующей таблице:
Этикетка | Технологии |
---|---|
Категория блюд | Модель классификации BERT |
Классические деликатесы разных категорий, вкусов, ингредиентов, мяса и овощей и практик. | Статистика данных, идентификация объекта, идентификация отношений, определение продукта (с учетом продаж и поставок) |
здоровая еда | Модель классификации + определение продукта (товары, соответствующие определенным ингредиентам, практикам и эффективности) |
3.1 Блюда категории
Интеллектуальный анализ целевых тегов категорий блюд в основном решает проблему того, какие бывают изысканные блюда. Для достижения этой цели необходимо решить две задачи: во-первых, как создать систему категорий, а во-вторых, как связать продукты с соответствующими узлами категорий. При первоначальном построении системы мы начали с характеристик товаров для гурманов и конкретных потребностей бизнеса и с нуля создали иерархическую систему категорий, включающую более 100 категорий. Некоторые примеры показаны на рисунке 3 (слева). В то же время модель классификации на основе CNN+CRF строится для классификации продовольственных товаров, как показано на рисунке 4 (слева).
Однако с развитием бизнеса существующая классификация оказалась не в состоянии удовлетворить потребности существующего бизнеса. Например, исходная система категорий не описывала подробно горячие блюда, например, практику неразличения горячих блюд. С этой целью мы сотрудничали с отделом планирования поставок на вынос, чтобы расширить систему категорий до более чем 300 тегов подкатегорий с более подробным разделением и более полным охватом.Некоторые примеры показаны на рисунке 3 (справа).
Подразделение категорий требует более точной модели. При идентификации категории доступные данные включают в себя название блюда, название категории боковой панели на внутренней стороне магазина продавца и имя продавца. Учитывая, что большая часть информации, которую можно использовать, является текстовой информацией, а текст, вводимый торговцами, не имеет определенной спецификации, а названия блюд также различны, для повышения точности модели имеем обновил исходную модель классификации CNN + CRF, используя модель предварительного обучения BERT + Fine-Tuning с большей емкостью модели. Структура модели показана на рисунке 4 (справа) ниже.
3.2 Классические этикетки продуктов питания по разным категориям, вкусам, ингредиентам, мясу и овощам и практикам
При построении тематических атрибутов мы в первую очередь выбираем лучшие блюда в измерении меток базовых атрибутов, комплексно учитывая продажи и предложение продуктов. Например, классическая еда под категорию и т.д. Однако в процессе построения мы обнаружили, что идентификация классической кухни кухни, если идентификация основана на продажах и поставках, результаты идентификации, как правило, «приготовлены дома» под кухней, поэтому классическая кухня определяются отдельно.
Категория классических продуктов питания и т. д. относится к категории продуктов питания с высокими продажами и обильным предложением, таких как основные продукты питания, классические продукты питания, классические закуски. Аналогичные определения применяются к вкусам, ингредиентам, рецептам, классическим этикеткам продуктов питания и многому другому.
В процессе построения мы обнаружили, что если продукт идентифицируется напрямую, поскольку частота обновления продукта относительно высока, он не подходит для вновь введенных продуктов питания, которые не имеют продаж или временно низкие продажи, и уровень продаж должен быть учитывать влияние онлайн-времени. Поэтому мы используем стандартные блюда для определения категорий, классических вкусов и т. д. и обобщаем их на конкретные деликатесные продукты через стандартные блюда.
Среди них «стандартные блюда» заимствуют понятие «стандартные блюда» в других видах бизнеса электронной коммерции.Хотя производство большинства блюд не является стандартизированным процессом, здесь мы фокусируемся только на основных общих частях и игнорируем незначительные различия. . Например, «яйца с помидорами» и «яичница с помидорами» — это блюда одного типа. Судя по результатам, «стандартные блюда», которые мы агрегировали, достигли порядка сотен тысяч и могут охватывать большинство деликатесных продуктов.
С помощью стандартных блюд мы агрегируем метки, такие как категории, вкусы, ингредиенты, мясо и овощи, и практики в измерение стандартных блюд, и рассчитываем объемы продаж и поставок в измерении стандартных блюд, что решает проблему длины времени онлайн для продуктов. В специальном процессе маркировки, таком как классика категории, мы сортируем стандартные блюда в измерении категории на основе продаж и предложения и выбираем Top n% стандартных блюд для маркировки товаров в категории классика. Например, в категории «макаронные изделия» продажи и предложение «макаронных изделий с помидорами» находятся на верхнем уровне n%, поэтому считается, что «вермишель с помидорами и яйцами» — это классическая паста.
3.3 Здоровое питание
Здоровое питание здесь в основном относится к блюдам с низким содержанием жира и калорий, то есть к низкокалорийным, нежирным, высоким содержанием клетчатки, простым, аутентичным, здоровым и питательным продуктам, как правило, к овощам и фруктам (таким как базилик, капуста, бамия, авокадо и т. д.), мясо, богатое высококачественным белком (например, лосось, креветки, моллюски, куриная грудка и т. д.), злаки (в основном грубые зерна, такие как овес, сорго, лебеда и т. д.). Способ приготовления также придерживается принципа «меньше масла, меньше соли и меньше сахара».Основные способы — приготовление на пару, варка, меньше жарки и заправка для салата.
Основная проблема идентификации здоровой пищи заключается в том, что имеется мало образцов.Однако из-за специфики здоровой пищи продавцы обычно описывают ее при вводе продуктов, например, указывая, что этот продукт для гурманов является «полезным» и «низкокалорийным». калории», «фитнес», поэтому мы построили классификационную модель для определения здорового питания. Доступные данные, включая название продукта, панель навигации продавца, имя продавца, описание товара продавцом и т. д. Категория мерчантов и категории товаров находятся в итеративном состоянии, поэтому эта часть информации не используется.
Процесс идентификации выглядит следующим образом:
- построение обучающих данных: Поскольку доля здорового питания сама по себе относительно невелика, ключевые слова, относящиеся к здоровому питанию, сначала суммируются, а ключевые слова используются для сопоставления текста, а данные о здоровом питании с относительно высокой вероятностью отбираются для аутсорсинговой маркировки данных. Здесь мы обобщаем такие ключевые слова, как «салат, рисовая каша, миска с хлопьями, с низким содержанием масла, низкокалорийная, без сахара, снижение жира, потеря веса, легкая пища, легкая калорийность».
-
Построение модели: Один и тот же продукт имеет разную идентификацию здорового питания из-за разных ингредиентов, используемых в нем. Например, продукт под названием «Фирменный салат» может не быть идентифицирован как здоровая еда, если в салат добавлен сыр. . Чтобы всесторонне рассмотреть информацию о продукте, введенную продавцом, используются имя продукта, имя продавца, имя панели навигации и описание продукта, введенное продавцом. Эти четыре типа данных являются источниками данных разного масштаба, а названия товаров представляют собой относительно короткие тексты, поэтому при построении модели рассмотрите возможность использования структуры, подобной Text-CNN[1], для извлечения признаков на уровне слов; описания товаров относительно Более длинные тексты, поэтому при построении рассмотрите возможность использования структуры, подобной Transformer[2], для извлечения признаков и используйте механизм Multi-head Attention для извлечения признаков на уровне «слова» в длинных текстах. Конкретная структура выглядит следующим образом:
- Приняты две структуры: Multihead-attention (Transformer) и Text-CNN. Эксперименты показывают, что комбинация двух структур более точна, чем одна структура.
- Во время моделирования используется обработка признаков на уровне слов, чтобы избежать ошибок, вызванных сегментацией слов и влиянием незарегистрированных слов.
- Итеративное улучшение данных: Поскольку для построения выборки используются ключевые слова, при обучении модели она будет обучаться в направлении, содержащем эти ключевые слова, поэтому возникает случай отсутствия припоминания. Здесь мы провели определенное усовершенствование обучающих данных, например, во время оценки мы выбираем бизнес, который может идентифицировать здоровое питание, и дополняем обучающие данные недостающими отзывными данными от бизнеса, дополняем и расширяем положительные примеры. Благодаря многократному расширению обучающих выборок, наконец, завершена высокоточная идентификация здоровых блюд.
3.4 Выравнивание объекта антенны
Учитывая, что названия блюд одного и того же продавца в разных бизнес-направлениях могут немного отличаться, мы разработали набор алгоритмов сопоставления названий блюд: распознавание категорий блюд, извлечение стандартных названий блюд, сопоставление синонимических отношений и т. д. для согласования сущностей блюд. Например: жареный на углях голубь = жареный на углях голубь, острая курица в Чунцине = острая курица в Чунцине гелешань, миска с рисовым пюре из баклажанов = миска с рисовым пюре из баклажанов, яичница-болтунья с помидорами = яичница-болтунья с помидорами и т. д. В настоящее время сформировалась единая система блюд, как показано на рисунке ниже:
4. Применение
Вот пример применения графа знаний о еде на вынос. В основном это включает в себя подбор наборов блюд, выкладку продуктов питания и так далее.
4.1 Комбинация комплексных обедов – характеристика блюд
Чтобы удовлетворить потребности пользователей в сопоставлении заказов, изучите технологию сопоставления пакетов. Ключом к технологии сопоставления упаковок является знание продуктов для гурманов, а карта знаний о продуктах питания на вынос обеспечивает наиболее полную базу данных. Основываясь на информации о товарах и исторической информации о заказах у одного и того же продавца, мы сопоставляем взаимосвязь товаров и обращаемся к сети указателей [2] и другим структурам для построения модели Enc-Dec на основе многоголового внимания [3]. Структура модели следующая:
-
Encoder: Моделирование бизнес-меню.Поскольку меню представляет собой неупорядоченные данные, для моделирования используется метод внимания. Информация о продукте в основном состоит из трех частей: название продукта, метка карты продукта и статистика транзакций.
- Выполните вычисление Self-Attention для названия блюда и этикетки продукта соответственно, чтобы получить векторную информацию, соответствующую названию блюда и этикетке продукта, а затем выполните Concat со статистикой транзакций в качестве начального представления продукта.
- Расчет Self-Attention выполняется на предварительном представлении товара для восприятия товаров того же продавца.
-
Deocoder: Изучите отношения словосочетаний и оцените следующее возможное словосочетание на основе выбранного в данный момент продукта.
- При выводе словосочетания используйте Beam-Search для вывода различных результатов словосочетания.
- Для обеспечения разнообразия товаров в выходной коллокации добавлен механизм Coverage [2].
- После обучения отделите часть кодировщика и выполните планирование в автономном режиме, чтобы добиться ежедневного вывода векторов.
Конкретная структура модели показана на следующем рисунке:
Модель сопоставления пакетов, построенная на основе карты знаний о еде на вынос, улучшила конверсию при множественных входах («Артефакт полного сокращения», «Заказ в диалоге», «Страница сведений о блюде» и т. д.).
4.2 Интерактивная рекомендация
Путем анализа потребностей пользователей еды на вынос обнаруживается, что у пользователей есть потребность в сравнении аналогичных продуктов между магазинами, и предоставляется удобный метод сравнения между магазинами и принятия решений по характеристикам процесса покупки, который выходит за границы торговцы. Интерактивная рекомендация в новом интерактивном режиме, чтобы создать точку прорыва для рекомендуемых продуктов. В процессе взаимодействия с пользователем, в соответствии с историческими предпочтениями пользователя и поведением кликов в реальном времени, он рекомендует продукты питания, которые могут понравиться пользователю. Как показано на Рисунке 8 (слева) ниже, при рекомендации похожих продуктов пользователям стандартные этикетки блюд на графике знаний о продуктах питания обеспечивают основную поддержку данных.
4.3 Поиск
Поиск, как основной портал трафика для еды на вынос, несет явный спрос пользователя на еду на вынос. Пользователи могут искать блюда, вводя ключевые слова. При фактическом использовании, в зависимости от типа искомых ключевых слов, это может быть конкретное блюдо, определенный ингредиент или определенная кухня. В графе знаний о еде высокая точность и широкий охват меток графа помогают улучшить пользовательский опыт поисковой записи. Последние эксперименты также показывают это (добавление некоторых меток для ингредиентов, кухонь, функций и т. д. в поиске). линия Экспериментальный эффект положительный).
5. Планирование будущего
5.1 Анализ тегов сцены
Еда тесно связана с нашей жизнью, и Meituan Takeaway предоставляет услуги питания десяткам миллионов пользователей каждый день. Однако потребности пользователей разнообразны, и в разных средах и сценариях потребности в продуктах питания также различны. В настоящее время анализ графических знаний о еде отсутствует в метках, связанных со сценой, таких как графические знания определенных солнечных терминов, фестивалей и т. д., графические знания при определенных погодных условиях, графические знания определенных групп (группы, набирающие мышечную массу, группы для похудения), и Т. Д. Далее мы рассмотрим анализ тегов сцены.
С точки зрения методов майнинга текущие данные майнинга представляют собой в основном текстовую информацию. С точки зрения интеграции изображений продуктов, описаний, структурированных этикеток и другой информации, анализ недостаточно глубок, и эффект модели необходимо улучшить. Поэтому с точки зрения мультимодальных моделей распознавания мы также проведем соответствующие исследования.
5.2 Исследование технологии рекомендаций на основе графиков
Основываясь на понимании еды, Meituan Takeaway рекомендует еду пользователям, чтобы лучше удовлетворять их потребности в еде. Граф знаний о еде на вынос и бизнес-данные о еде на вынос в качестве основы для этого содержат сотни миллионов информации об узлах и миллиарды реляционных данных. Путем моделирования и анализа поведения пользователя при поиске продукта, кликах, покупках и других действиях он может лучше удовлетворять потребности пользователей и рекомендовать продукты пользователям. В следующем исследовании графического приложения мы также более подробно рассмотрим технологию рекомендаций, основанную на графе знаний о еде и поведении пользователей.
6. Ссылки
- [1] Kim Y. Convolutional neural networks for sentence classification[J]. arXiv preprint arXiv:1408.5882, 2014.
- [2] See A, Liu P J, Manning C D. Get to the point: Summarization with pointer-generator networks[J]. arXiv preprint arXiv:1704.04368, 2017.
- [3] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.
- [4] Hamilton W, Ying Z, Leskovec J. Inductive representation learning on large graphs[C]//Advances in Neural Information Processing Systems. 2017: 1024-1034.
7. Об авторе
Ян Линь, Го Тун, Хайчао, Маоди и другие — все из технической команды Meituan, занимающейся выносом.
Прочтите другие подборки технических статей от технической команды Meituan
внешний интерфейс | алгоритм | задняя часть | данные | Безопасность | Эксплуатация и техническое обслуживание | iOS | Android | контрольная работа
|Ответьте на ключевые слова, такие как [акции 2020 г.], [акции 2019 г.], [акции 2018 г.], [акции 2017 г.] в диалоговом окне строки меню общедоступной учетной записи, и вы сможете просмотреть коллекцию технических статей технической группы Meituan в течение годы.
| Эта статья подготовлена технической командой Meituan, авторские права принадлежат Meituan. Добро пожаловать на перепечатку или использование содержимого этой статьи в некоммерческих целях, таких как обмен и общение, пожалуйста, укажите «Содержимое воспроизводится технической командой Meituan». Эта статья не может быть воспроизведена или использована в коммерческих целях без разрешения. Для любой коммерческой деятельности, пожалуйста, отправьте электронное письмо по адресуtech@meituan.comПодать заявку на авторизацию.