Стандартизированная конструкция и применение продуктов на вынос

алгоритм
Стандартизированная конструкция и применение продуктов на вынос

Наименование блюд на вынос сильно персонализировано, что создает определенные трудности для анализа операций, отзывной сортировки и фонового управления. Эта статья является второй статьей в серии карт знаний о еде на вынос. В ней представлен процесс и план построения системы стандартизации продуктов питания с нуля до единицы в еде на вынос. Основные задействованные технологии включают извлечение сущностей в области НЛП, сопоставление текста, отношения классификация и поле CV, сопоставление изображений и т. д. Наконец, посредством применения стандартных названий в бизнесе на вынос проверяются ценность и значимость конструкции стандартной системы имен.

1. Предыстория и цели

Товары, как основные элементы процесса сделки на вынос, определяют точность согласования спроса и предложения и напрямую влияют на то, может ли быть достигнуто поведение сделки. На платформе выноса есть сотни миллионов онлайн-продуктов, таких как еда, десерты и напитки, многие из которых являются одними и теми же продуктами с одинаковой информацией об атрибутах. Создание стандартизированного описания продуктов и объединение одних и тех же продуктов являются требованиями многих бизнес-сценариев.

Сценарий анализа предложения и маркетинга: Я хотел бы проанализировать, какие блюда продают торговцы в Ванцзине, сколько торговцев продают "яичницу с помидорами"?

возникшие проблемы: Так как блюда являются нестандартными продуктами и продавцы имеют высокую степень персонализации в наименовании блюд, на платформе выноса появляются разные способы наименования одного и того же названия блюда, например, «яичница с помидорами» включает в себя яичницу-болтунью. с помидорами и яичница с мелкими помидорами. , томатные яйца, три must-have столицы ~ томатная яичница [небольшие блюда по обычной цене] и т. д., нет возможности просто агрегировать их по ключевым словам.

Сценарий рекомендации темы: Придумать тему детализации блюд и быстро отфильтровать популярные блюда, такие как "раки", "рыба на гриле", "куриный горшок", "желтая тушеная курица"?

возникшие проблемы: степень детализации классификации продуктов недостаточна для быстрого поиска блюд, подходящих для детализации.

Сцена торгового заказа: Для обычного блюда, такого как «Свинина со вкусом рыбы», каждый продавец должен ввести этикетки, такие как ингредиенты, вкусы, рецепты, кухня, мясо и овощи и т. д. Входная стоимость высока. Можете ли вы выбрать «iPhone 12», как на Taobao? ?, его свойства могут быть связаны автоматически.

возникшие проблемы: Атрибуты блюд не стандартизированы, и между блюдами и атрибутами нет никакой связи.

Основываясь на вышеупомянутых болевых точках бизнес-приложений, была начата стандартизированная конструкция продуктов на вынос. Цель состоит в том, чтобы установить стандартизированное название для товаров, чтобы добиться агрегации одних и тех же товаров, чтобы обеспечить разумную степень детализации концептуального разделения для бизнеса, чтобы обеспечить операционный анализ предложения и маркетинга, персонализированный на стороне пользователя сортировка отзывов и изготовление этикеток на стороне продавца.

2. Отраслевые исследования

Для отраслевой справки в основном обратитесь к стандартизированной конструкции SPU Taobao. SPU определяет, что представляет собой продукт в системе Taobao, и является наименьшей единицей агрегации информации о продукте, которая состоит из ключевых атрибутов + обязательных атрибутов.

  • ключевой атрибут: то, что используется для ограничения и определения товара, такого как iPhone X, определяется брендом «Apple» и серией «X».
  • привязать свойство: Это дополнение и уточнение ключевых атрибутов. Например, после того, как iPhone X уточнил продукт, также определяются другие атрибуты, такие как модель сети, размер экрана и т. Д., Чтобы дополнительно дополнить эти атрибуты и постепенно уточнить продукт. .

Можно видеть, что конструкция SPU Taobao на самом деле представляет собой конструкцию атрибутов, таких как кондиционер Gree S1240, который стандартизирован и уникален благодаря бренду Gree, категории «кондиционер» и модели «S1240».

Но для индустрии общественного питания по основному атрибуту ингредиента «говядина», практике «жареный» и вкусу «острый» невозможно определить, что это за блюдо, не говоря уже об уникальности; но если оно стандартизировано через «маленькие жареная желтая говядина», отрасль/пользователи имеют общее представление об этом, а относительно фиксированный вкус ингредиентов подходит для стандартизации. Поэтому Taobao — это стандартизированный атрибут, а кейтеринг — это стандартизированное название блюда, поэтому мы называем его стандартным названием блюда.

3. Анализ проблем и вызовы

Стандартизация Taobao в основном нацелена на стандартные продукты, в то время как стандартизация общественного питания нацелена на нестандартные продукты, что является более сложным и сталкивается с такими проблемами, как проблемы персонализации, нестандартный ввод, отсутствие отраслевых стандартов для детализации и когнитивные ограничения.

3.1 Проблемы с персонализацией

Продавцы общепита могут настраивать производство с меньшими затратами, с высокой степенью персонализации.Одно и то же блюдо может называться по-разному у разных продавцов, для агрегирования требуется большое количество синонимов, а вспомнить синонимы - самая большая трудность (как копать из возможных синонимов) маркировка). Например, три маст-хэва в столице - омлет с помидорами [малая порция обычной цены], омлет с помидорами (малая порция), омлет с маленькими помидорами и омлет с помидорами (малая порция), все относятся к продукту «омлет с помидорами».

3.2 Нерегулярный въезд

Когда продавцы вводят название продукта, возникает проблема отсутствия ключевой информации, например, является ли «красочный фрукт» фруктовой тарелкой, напитком или пиццей, а «лук-порей и яйцо» — булочкой или клецкой. Помимо названия товара, необходимо обосновать и дополнить название с помощью торговой классификации, тега в левой колонке товара и другой сопутствующей информации.

3.3. Отраслевого стандарта размера частиц не существует.

В процессе стандартизации нет единого стандарта, а степень детализации сложно контролировать: слишком толстая и легко допустить ошибки, не относящиеся к блюду (например: «острые куриные голени» -> «куриные голени»), слишком подробное название стандарта сплоченность слабая (например: «Традиционная тушеная курица [Большая миска]» сама по себе слишком мелкая, и ее необходимо уточнить до «Тушеной курицы»).

3.4 Когнитивные ограничения

Китайская культура питания обширна и глубока.Для некоторых нишевых или местных деликатесов, которые малоизвестны публике, необходимо иметь определенные профессиональные знания.Например, «жареный цыпленок» также является стандартным названием, и дело не в том, что купец не заполнил его полностью.

4. Схема

Общая схема стандартизации товаров показана на рисунке: во-первых, на основе полных 100 миллионов онлайн-товаров продавцов продуктов питания, десертов и напитков, путем очистки имен, конфиденциальной дискриминации и ручной проверки, основа названия ближайшего блюда получается; путем анализа синонимов, имя магистрали Дальнейшая агрегация и сжатие, сопоставление с предметом стандартного имени; для одного продукта, исправление ошибок имени, очистка, путем сопоставления моделей, установление сопоставления имени продукта со стандартным; для удовлетворения агрегации требования детализации различных бизнес-сценариев, посредством анализа подчиненных отношений, глубокого обхода для дальнейшего построения дерева иерархии канонических имен. Вводятся соответственно три модуля агрегации имен, отображения сопоставления и иерархического построения, а также вводятся используемые модели алгоритмов.

图1 商品名标准化整体方案

4.1 Агрегация имен

Есть еще много синонимов для названий очищенных стволов, таких как ростбиф из картофеля, ростбиф из говядины, ростбиф из картофеля, ростбиф из мелкого картофеля, что означает один и тот же товар. Цель состоит в том, чтобы еще больше усилить связность имен, изучая эту потенциальную синонимическую связь. В итеративном процессе методы сопоставления правил и семантического сопоставления последовательно используются для поиска потенциальных синонимов; после агрегирования подлежащие слова идентифицируются в соответствии с их популярностью, а исходные слова-основы сопоставляются со стандартными подлежащими существительными. Два метода добычи синонимов представлены следующим образом.

4.1.1 Сопоставление правил

На первом этапе был принят метод сопоставления правил, и модель NER использовалась для идентификации компонентов имени магистрали, и в сочетании с таблицей синонимов атрибутов, построенной с помощью графа знаний, было решено, являются ли два имени магистрали синонимами. .

图2 规则匹配

Как показано на рисунке, "жареный картофель с говядиной" получает говядину-ингредиенты, обжарку-практику, картофель-ингредиенты через разрешение имен; "жареная говядина с артишоками" получает картофель-ингредиенты, обжарку-практику, говядину-ингредиенты через разрешение имен. Сравнивая составные слова двух названий стволов, картофель и картофель являются парой синонимов, а остальные компоненты одинаковы, чтобы получить синонимическую связь между ними.

Таким образом было добыто сто тысяч синонимов. Величина популярности рассчитывается по количеству товарных запасов, охваченных стандартным наименованием, причем в качестве основного слова используется более популярное, после ручной проверки оно добавляется в стандартную систему наименования, что повышает степень агрегации название.

4.1.2 Семантическое сопоставление

Из-за ограниченного количества синонимов, найденных путем сопоставления правил, таких как «лапша дандан» и «лапша для супа дандан», согласно модели NER, как лапша дандан, так и лапша для супа будут распознаваться как категории. Таким образом, два имени соединительной линии не могут установить синонимическую связь.

На втором этапе мы исследовали некоторые модели сопоставления, опираясь на опыт группы алгоритмов поиска и используя модель семантического сопоставления BERT+DSSM для расширения охвата синонимических отношений. Как показано на рисунке, сначала на основе синонимов, накопленных на первом этапе, путем генерации положительных примеров внутри группы и генерации отрицательных примеров между группами строится выборка уровня миллиона и обучается версия базовой модели; для дальнейшей оптимизации производительности модели активно используются два способа обучения и увеличения данных, выборочные данные повторяются.

图3 语义匹配

Метод активного обучения заключается в том, чтобы сначала использовать базовую модель для определения группы похожих образцов, подлежащих маркировке, отправить их на аутсорсинговые этикетки, добавить правильно помеченные образцы к существующим синонимам и добавить неправильно помеченные образцы в обучающий набор в качестве отрицательные примеры для использования в модели итерации оптимизации. Благодаря активному обучению дополняются образцы уровня 10 000, а точность модели значительно повышается.

Дальнейший анализ результатов показал, что мы обнаружили ряд очень характерных плохих случаев, таких как тушеная голова льва и миска с тушеным рисом в виде головы льва, мультяшный, смешанный с тофу, и смешанный тофу и т. д. Все они совпадают с большим буквальным сходством, но разными основными ингредиентами. Ошибка. Основываясь на этом признаке, группа образцов с высоким буквальным сходством сначала была очерчена в соответствии с буквальным расстоянием, а затем использовалась модель разрешения имен для идентификации их компонентов для выявления отрицательных примеров. Таким образом, образцы уровня 100 000 автоматически дополняются без увеличения стоимости маркировки, что еще больше повышает точность модели.

Используя модель семантического сопоставления, были добавлены синонимы уровня 100 000, что еще больше улучшает связность стандартных имен.

4.2 Сопоставление сопоставления

На основе обнаруженной таблицы стандартных существительных и синонимов установите сопоставление «стандартное название товара» для 100 миллионных онлайн-товаров (например, «Signature Egg Fried Small Tomato (большая часть)» сопоставляется с «Tomato Fried Egg»). , чтобы реализовать стандартизированное описание и агрегирование одного и того же элемента. Модель сопоставления, сочетающая «текст + изображение», охватывает большинство онлайн-продуктов продавцов продуктов питания, десертов и напитков.

4.2.1 Сопоставление текста

Процесс сопоставления текста показан на рис. 4, который обычно включает в себя два этапа воспроизведения и сортировки. Во-первых, очистите информацию описания, такую ​​как спецификации и вес в названии продукта, 2-граммовые фрагменты очищенного названия продукта и стандартного названия, и вызовите стандартное имя, которое должно быть сопоставлено, связав один и тот же фрагмент; на основе отозванного стандартного имени, через Вычислите расстояние Жаккара и сохраните 20 лучших стандартных имен; на этой основе используйте модель векторизации BERT для создания векторного представления имени продукта и стандартного имени и получите стандарт с наивысшей полной оценкой путем вычисления литерала Жаккара. расстояние и подобие косинусного вектора имя.

图4 文本匹配流程

Среди них модель векторизации BERT основана на модели синонимического семантического сопоставления, упомянутой выше, и различает стандартное имя и товарное наименование с помощью каскадного кодирования одномерного типа и преобразует его в асимметричную стандартную модель сопоставления имен. Причина этой модификации заключается в том, что, в отличие от сопоставления синонимов, сопоставление стандартного имени является асимметричным. Например, «Xiangguokui» должно сопоставляться с относительно абстрактным стандартным именем «Guokui», а не с более конкретным стандартным именем «Spiced Pot Helmet». После преобразования точность сопоставления значительно улучшилась.

图5 BERT向量化模型

4.2.2 Сопоставление изображений

Из-за ограниченной длины названия блюда и нестандартного наименования предприятия информация, полученная только из названия блюда, ограничена, и установить соответствие стандартному наименованию невозможно. За счет введения информации об изображении товара повышается точность сопоставления и охват товаров с неполной текстовой информацией.

Сопоставление изображений использует мультиклассификационную модель.В соответствии с верхним и вторым уровнями после иерархической агрегации стандартных имен (подробности см. к результатам сопоставления текста. Из-за использования крупномасштабных выборок, не размеченных вручную, неизбежно решение проблемы шума выборки. В этом сценарии есть два основных источника шума: во-первых, текстовая информация является неполной, что приводит к неверным меткам выборки; во-вторых, слишком грубая степень детализации классификации из-за высокой степени детализации верхнего и второго уровня. агрегация, и несколько меток должны быть разделены. Для решения этих задач первая версия модели обучается по базовому выборочному набору с помощью итеративной оптимизации образцов и моделей, модель используется для добычи зашумленных данных, а после ручной доводки модель проверка. Эта итерация обеспечивает оптимизацию модели с низкой стоимостью маркировки.

图6 图像模型迭代流程

Модель классификации изображений выбирает сеть Basebone Efficientnet, которая точно настраивает параметры модуля MBConv и определяет оптимальную комбинацию, регулируя разрешение, глубину и ширину сети. Метод анализа шума сначала использует метод Metric-Learn, чтобы научиться получать центр кластера каждой категории, а также среднее значение, дисперсию и медиану расстояния между выборками в классе и центром кластера, а затем сортировать их. чтобы раскопать относительную дисперсию внутри класса. Большие категории, а затем использовать прогноз модели классификации на наборе проверки, O2U-Net и Forgetting Event для добычи шума выборки. С помощью описанного выше метода модель оптимизируется для повышения устойчивости к шумовым выборкам.

图7 Efficientnet网络宽度、深度、输入分辨率的变化组合

4.3 Иерархическая конструкция

В сценарии рекомендаций, чтобы обеспечить персонализированный и разнообразный опыт пользователей, необходимо объединять продукты с разумной степенью детализации. Для сценария сортировки списка товаров, если существующие категории будут слишком толстыми, это приведет к недостаточному разнообразию, а если стандартные имена будут слишком тонкими, результаты будут повторяться. Цель состоит в том, чтобы создать иерархическую систему товаров, чтобы обеспечить разумную степень детализации агрегирования для бизнеса. Посредством интеллектуального анализа отношений и иерархического обхода создается иерархическое дерево с 10 000 вершинами уровня, которое поддерживает запуск и оптимизацию продуктов, таких как списки продуктов, рейтинги продуктов питания и интерактивные рекомендации. Методы построения включают сопоставление правил и различение моделей, и соответственно вводятся два типа методов.

4.3.1 Сопоставление правил

Метод сопоставления правил основан на существующей модели NER и словаре атрибутов с помощью метода структурированного сопоставления, анализа отношений между подчиненными уровнями 100 000 и дальнейшего обхода стандартного дерева иерархии имен для создания вершин уровня 10 000. Этот метод относительно прост и основан на существующей работе, цикл разработки короток, и он может быстро поддерживать запуск на ранней стадии проекта и дает очевидные преимущества для бизнеса.

图8 规则判别

4.3.2 Модельная дискриминация

Из-за ошибки модели NER и отсутствия отношений атрибутивных слов метод сопоставления правил имеет ограниченные отношения анализа, и необходимо дополнительно улучшить обобщение с помощью дискриминантной модели. Модель классификации отношений на основе BERT показана на рисунке 8. Пара стандартных имен, подлежащих классификации, склеивается с [SEP], в начале добавляется идентификатор [CLS], после кодирования результата сплайсинга он передается в модель BERT, а [CLS] вынимается. Внедрение битов; затем подключаются полный уровень соединения и уровень Softmax для вывода результата классификации отношений. Стандартные отношения имен включают: синоним, высший, низший, несвязанный, всего четыре категории.

Данные выборки включают в себя две части: простые примеры и сложные примеры.Среди них: простые примеры основаны на существующих синонимах, подчиненных и кросс-генерации групп синонимов, и в общей сложности построены миллионы выборок; на этой основе существующие Далее используются векторы, вызывается стандартная пара имен с высоким сходством, и ее категория помечается как аутсорсинг. Второй тип проб ближе к реальному классификационному месту и относится к сложной классификации с высокой степенью путаницы.

Первая версия модели предварительно обучается на образцах первого типа, и на этой основе для тонкой настройки модели используется второй тип образцов, что дополнительно повышает точность модели классификации. После ручной проверки отношения слов на уровне 10 000 слов дополнительно дополняются.

图9 分类模型

5. Применение в сфере доставки еды

В качестве среднего слоя категорий и товаров стандартное имя обеспечивает более богатую и разумную гранулярность агрегации для бизнеса, поддерживает оптимизацию стратегии преобразования трафика, а также разработку и запуск серии форм продуктов. Список продуктов связан со стандартным уровнем имени, чтобы реализовать агрегацию продуктов с разумной степенью детализации и решить проблему дублирования продуктов в Интернете; в качестве основных данных стандартное имя поддерживает разработку и запуск рейтингового списка продуктов питания и помогает улучшить эффективность принятия решений пользователями; Для продуктов, к которым в настоящее время обращается пользователь, используйте стандартное имя, чтобы вызвать связанные продукты, чтобы получить интерактивную рекомендацию. В качестве важных базовых данных стандартное имя поддерживает диверсификацию форм продуктов и оптимизацию стратегий рекомендаций, имеет важное значение и значение для повышения лояльности пользователей, конверсии трафика и создания удобной среды платформы для продавцов.

图10 标准名相关应用

6. Резюме и перспективы

В настоящее время построение базовой системы завершено, и она успешно применяется в различных сценариях и дает преимущества для бизнеса. Устоявшаяся иерархическая система стандартных наименований охватывает подавляющее большинство онлайн-продуктов на вынос. Стандартное имя используется в качестве основы и характеристических данных и применяется к бизнес-сценариям, таким как списки продуктов и рейтинги продуктов питания на стороне пользователя, для поддержки оптимизации стратегии и получения дохода от трафика; в то же время оно также поддерживает межведомственную модель. оптимизация рекомендации по заказу SaaS через сервисные интерфейсы, чтобы улучшить пользовательский опыт и преимущества для бизнеса.

Стандартное имя является важной характеристикой продукта и используется в широком диапазоне бизнес-сценариев. В дальнейшей работе необходимо продолжить итеративную оптимизацию, чтобы обеспечить точность и качество самого стандартного имени, в то же время, углубить понимание бизнеса, оптимизировать иерархическую систему в соответствии с потребностями бизнеса, обеспечить более разумную гранулярность агрегации. для бизнеса и повысить доход от конверсии, а также сосредоточить внимание на строительстве Группа стандартных имен с сильным восприятием пользователей и широким охватом предложения может снизить стоимость доступа со стороны бизнеса и повысить доход.

6.1 Оптимизация словарного запаса и синонимов

Стандартные списки существительных имеют большой размер и сложные отношения синонимов.Построение списка лексики не делается за одну ночь и требует длительной итерации и оптимизации. С целью выявления нетарельчатых, нерегулярных и других ошибок в стандартном списке имен существительных, а также проблемы недостаточной и избыточной агрегации синонимов для поиска потенциальных синонимов и разграничения проблемных словосочетаний по модели используется метод алгоритма разграничения + ручная аннотация. ;после ручной проверки проводятся пакеты.Дополнение и пересмотр, а также постоянная оптимизация лексики и синонимов.

6.2 Рационализация иерархической структуры

В настоящее время стандартный уровень имен генерируется напрямую с помощью правил и моделей с небольшим участием вручную и недостаточной интеграцией с бизнес-сценариями. В дальнейшем, исходя из потребностей бизнеса, будут уточнены критерии детализации обрезки и агрегации, рационализирована иерархическая структура и оптимизирована рациональность иерархии. Таким образом, различные бизнес-приложения могут поддерживаться более гибко и эффективно, а эффект приземления может быть улучшен.

6.3 Конструкция имени основного стандарта

Существует целых 200 000 стандартных имен, что вызывает определенные затраты на выбор и неудобство для бизнес-приложений. В сочетании с потребностями бизнеса определите стандартные имена с сильным восприятием пользователей, широким охватом предложения и высоким качеством и сосредоточьтесь на строительстве в качестве основного стандартного имени. Базовое стандартное имя легкое и усовершенствованное, оно ближе к потребностям бизнеса и может помочь бизнес-партнерам сократить расходы на доступ и увеличить доход.

7. Ссылки

  • [1] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
  • [2] Lample G, Ballesteros M, Subramanian S, et al. Neural architectures for named entity recognition[J]. arXiv preprint arXiv:1603.01360, 2016.
  • [3] Chen Q, Zhu X, Ling Z, et al. Enhanced lstm for natural language inference[J]. arXiv preprint arXiv:1609.06038, 2016.
  • [4] Huang P S, He X, Gao J, et al. Learning deep structured semantic models for web search using clickthrough data[C]//Proceedings of the 22nd ACM international conference on Information & Knowledge Management. 2013: 2333-2338.
  • [5]Tan M , Le Q V . EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[J]. 2019.

8. Об авторе

Лю Лю, Маоди, Чхонджин, Хёсон и другие — все из технической команды Meituan по доставке еды.

Прочтите другие подборки технических статей от технической команды Meituan

внешний интерфейс | алгоритм | задняя часть | данные | Безопасность | Эксплуатация и техническое обслуживание | iOS | Android | контрольная работа

|Ответьте на ключевые слова, такие как [акции 2020 г.], [акции 2019 г.], [акции 2018 г.], [акции 2017 г.] в диалоговом окне строки меню общедоступной учетной записи, и вы сможете просмотреть коллекцию технических статей технической группы Meituan в течение годы.

| Эта статья подготовлена ​​технической командой Meituan, авторские права принадлежат Meituan. Добро пожаловать на перепечатку или использование содержимого этой статьи в некоммерческих целях, таких как обмен и общение, пожалуйста, укажите «Содержимое воспроизводится технической командой Meituan». Эта статья не может быть воспроизведена или использована в коммерческих целях без разрешения. Для любой коммерческой деятельности, пожалуйста, отправьте электронное письмо по адресуtech@meituan.comПодать заявку на авторизацию.