Являясь краеугольным камнем цифровизации новой отрасли розничной торговли, граф знаний о товарах обеспечивает точное и структурированное представление о товарах и играет решающую роль в бизнес-приложениях. По сравнению с исходной картой продавцов в мозгу Meituan, карта продукта должна иметь дело с более разрозненными, сложными и массивными данными и бизнес-сценариями, а также сталкивается с проблемами источников информации низкого качества, множества измерений данных, опоры на здравый смысл и профессиональные знания и т.п. вызов. В этой статье основное внимание будет уделено карте знаний о розничных товарах и представлено исследование Meituan в направлении построения уровня товаров, построения системы атрибутов и повышения эффективности человека при построении карт, в надежде помочь или вдохновить всех.
задний план
Мейтуанский мозг
В последние годы искусственный интеллект стремительно меняет жизнь людей, на самом деле за ним стоят две технические движущие силы:глубокое обучениеиГрафик знаний. Мы резюмируем глубокое обучение как скрытую модель, которая обычно ориентирована на конкретную задачу, такую как игра в го, распознавание кошек, распознавание лиц, распознавание речи и так далее. Вообще говоря, он может достигать отличных результатов на многих задачах, но у него есть и некоторые ограничения, например, он требует массивных обучающих данных и мощных вычислительных мощностей, его сложно переносить между задачами, он не обладает хорошей производительностью, интерпретируемостью. С другой стороны, графы знаний, как явные модели, также являются основным технологическим драйвером искусственного интеллекта, который может широко применяться для решения различных задач. По сравнению с глубоким обучением, знания в графе знаний могут быть ускорены, имеют хорошую интерпретируемость и ближе к человеческому мышлению.Он дополняет накопление человеческих знаний для неявных глубоких моделей и дополняет глубокое обучение. Поэтому многие крупные интернет-компании мира активно внедряют графы знаний.
Meituan объединяет сотни миллионов пользователей и десятки миллионов продавцов, и за этим стоит огромное количество знаний о повседневной жизни. В 2018 году команда Meituan Knowledge Graph приступила к созданию Meituan Brain, сосредоточившись на использовании технологии графов знаний для расширения возможностей бизнеса и дальнейшего улучшения пользовательского опыта. В частности, Meituan Brain будет глубоко понимать и структурировать десятки миллионов продавцов, миллиарды блюд/товаров, миллиарды отзывов пользователей и миллионы сцен, лежащих в основе бизнеса Meituan Моделирование знаний создает ассоциации знаний между людьми, магазинами, товарами и сценами. , формируя тем самым масштабный граф знаний в сфере жизненных услуг. На этом этапе Meituan Brain охватила миллиарды сущностей и десятки миллиардов троек и проверила эффективность графов знаний в сфере общественного питания, еды на вынос, отелях, финансах и других сценариях.
Исследование в новой области розничной торговли
Meituan постепенно преодолевает первоначальные границы и исследует новые направления бизнеса в сфере жизненных услуг, не только помогая всем «лучше питаться» через еду на вынос и кейтеринг, но также постепенно расширяется до других областей, таких как розничная торговля и путешествия в последние годы, помогая всем «жить лучше. лучше». В сфере розничной торговли Meituan последовательно запустила ряд соответствующих предприятий, таких как Meituan Flash, Meituan Grocery, Meituan Select и Tuanhaohuo, постепенно реализуя концепцию «все дома». Чтобы лучше поддерживать новый розничный бизнес Meituan, нам необходимо создать карту знаний о розничных товарах, стоящих за ним, накопить структурированные данные и иметь глубокое понимание товаров, пользователей, атрибутов, сценариев и т. д. Пользователь предоставляет услуги в сфере розничных товаров.
По сравнению с кейтерингом, ресторанами на вынос, отелями и другими областями, связанными с продавцами, сфера розничных товаров создает более сложные задачи для построения и применения графов знаний. С одной стороны, количество товаров больше, и сфера охвата также шире. С другой стороны, отображаемая информация о самом продукте часто относительно скудна, в значительной степени необходимо объединить знания здравого смысла в жизни, чтобы делать выводы, чтобы заполнить десятки скрытых за ним атрибутов измерений и завершить комплектность продукта понимание. В примере на рисунке ниже простое описание продукта, такое как «Lay's Cucumber Flavor», на самом деле соответствует обширной скрытой информации. Только после того, как будет выполнено структурированное извлечение этих знаний и соответствующее обоснование знаний, можно будет лучше поддерживать поиск ниже по течению. , рекомендации и другие оптимизации модулей.
Цель построения товарной карты
В соответствии с характеристиками розничного бизнеса Meituan мы разработали многоуровневую, многомерную и межотраслевую систему карт знаний о розничных товарах.
многоуровневый
В разных сценариях применения разных предприятий определение «товар» будет разным, и необходимо понимать каждый товар с разной степенью детализации. Поэтому в нашей карте знаний о розничных товарах установлена пятиуровневая иерархическая система, включающая:
- L1-продукт SKU/SPU: В соответствии с гранулярностью продуктов, продаваемых в бизнесе, это объект пользовательских транзакций, и это часто продукты, перечисленные продавцами, такие как «Mengniu с низким содержанием жира и высоким содержанием кальция, коробка 250 мл, продаваемая Wangjing Carrefour». . Этот уровень также является нижним краеугольным камнем графа товаров, соединяя библиотеку бизнес-товаров и знания графа.
- L2-Стандартные товары: Описывает степень детализации объективных фактов о самом продукте, таких как «Mengniu с низким содержанием жира и высоким содержанием кальция, коробка 250 мл», независимо от того, по какому каналу вы покупаете, у какого продавца, сам продукт не имеет никакого значения. Товарные штрих-коды являются объективной основой на уровне стандартных товаров. На этом уровне мы можем моделировать объективные знания о стандартных продуктах, например, один и тот же стандартный продукт будет иметь одинаковую марку, вкус, упаковку и другие атрибуты.
- L3 — Абстрактные товары: Далее мы будем абстрагировать вверх стандартные товары, такие как «Mengniu молоко с низким содержанием жира и высоким содержанием кальция». На этом уровне мы уже не обращаем внимания на конкретную упаковку, характеристики и т.п. товаров, а агрегируем товары одной серии в абстрактные товары, которые несут в себе субъективное познание пользователем товара, включая общепринятое название пользователя для серия продуктов и узнаваемость бренда, субъективная оценка и т. д.
- L4-Основная категория: Опишите основную категорию основного продукта, такую как «яйцо», «клубничный крем», «столовая колбаса» и т. д. Этот слой служит внутренней системой категорий карты продукта, которая объективно моделирует категории в товарном поле и несет спрос пользователя на товары.Например, яйца различных марок и происхождения могут удовлетворить спрос пользователя. для категории яиц. .
- L5 - бизнес-категория: по сравнению с фоновой системой категорий основной категории, бизнес-категория в качестве системы приоритетных категорий будет определяться вручную и корректироваться в соответствии с текущим этапом развития бизнеса, и каждый бизнес будет устанавливать соответствующую приоритетную категорию в соответствии с характеристиками и потребности текущей бизнес-стадийной системы.
многомерный
- перспектива атрибута продукта: вокруг самого продукта нам нужно большое количество атрибутивных измерений, чтобы описать продукт. Параметры атрибутов продукта в основном делятся на две категории: один — это общий атрибут, включая марку, спецификацию, упаковку, происхождение и т. д.; другой — атрибут, специфичный для категории, например, для молочных продуктов по жирности (молоко цельное/нежирное/обезжиренное), способу хранения (молоко комнатной температуры, охлажденное молоко) и др. Товарные атрибуты в основном описывают объективное знание товаров и часто устанавливаются на уровне стандартных товаров.
- Когнитивная перспектива пользователя: В дополнение к измерению объективных атрибутов продукта пользователи часто имеют ряд субъективных представлений о продукте, таких как общее название продукта («Маленькая черная бутылка», «Счастливая вода»), оценка продукта (« Sweet and Delicious», «Happy Water»). «Еда на входе», «высокая стоимость», список/список продуктов («Список импортных продуктов», «Летняя помощь») и другие параметры. Эти субъективные восприятия часто основаны на уровне абстрактных товаров.
- Категория/Категория Перспектива: С точки зрения категории/категории, разные категории/категории будут иметь свои собственные проблемы. На этом уровне мы будем моделировать типичные бренды для каждой категории/категории, на какие типичные атрибуты обращают внимание пользователи и как долго будет длиться цикл повторной покупки различных категорий.
перекрестный бизнес
Цель графа знаний о товарах Meituan Brain — смоделировать знания о товарах в объективном мире, а не ограничиваться одним бизнесом. В пятислойной системе товарной карты стандартные товары, абстрактные товары и системы категорий отделены от бизнеса и построены вокруг объективных товаров, включая размерные данные, построенные вокруг этих уровней, которые также описывают товарное поле. объективное знание.
Применительно к различным предприятиям мы связываем знания объективного графа с категорией внешнего интерфейса бизнеса и вплоть до бизнес-продукта SPU / SKU, после чего мы можем выполнить доступ к различным бизнес-данным и реализовать интеграцию различных бизнес-данных. и объективные знания.Это обеспечивает более полную перспективу панорамных данных между службами. Используя такие данные, мы можем более комплексно моделировать и анализировать предпочтения пользователей в отношении бизнеса и категорий, а также их чувствительность к цене и качеству с точки зрения пользователей. С точки зрения товаров мы можем более точно моделировать цикл повторных покупок различных категорий. , регион /сезон/фестиваль предпочтения и т. д.
Задача построения карты продукта
Проблемы при построении графов знаний о товарах в основном связаны со следующими тремя аспектами:
- Источники информации низкого качества: информация о самом продукте относительно скудна, и в ней часто преобладают названия и изображения. Особенно в сценариях электронной коммерции LBS, таких как Meituan Flash, продавцам необходимо загружать большое количество данных о продуктах, и во многих случаях неполная информация для ввода информации о продукте. В дополнение к заголовку и изображениям, хотя сведения о продукте также содержат много информации о знаниях, их качество часто неравномерно, а структура отличается, что чрезвычайно затрудняет добычу знаний.
- Несколько измерений данных: Есть много измерений данных, которые необходимо построить в товарном поле. Взяв в качестве примера раздел атрибутов продукта, нам нужно не только создать общие атрибуты, такие как торговая марка, спецификация, упаковка, вкус и другие параметры, но также охватить параметры атрибутов, представляющие особую важность для каждой категории/категории, такие как содержание жира. , содержание сахара, емкость аккумулятора и т. д., в целом будут задействованы сотни параметров атрибутов. Поэтому эффективность построения данных также является большой проблемой.
- Опираясь на здравый смысл/экспертные знания: Поскольку люди обладают достаточным здравым смыслом и знаниями в своей повседневной жизни, они могут получить скрытую информацию о продукте с помощью краткого описания. Например, когда они видят такой продукт, как «Огурец Lay's», они знают, что это на самом деле Lay's. Картошка со вкусом огурца Когда я увидела "Мясо Танского Монаха", я поняла, что это не мясо, а закуска. Следовательно, нам также необходимо изучить методы семантического понимания, которые включают знания здравого смысла. В то же время в области медицины и личной гигиены построение карт должно опираться на сильные профессиональные знания, такие как связь между болезнями и лекарствами, и такие отношения предъявляют чрезвычайно высокие требования к точности, и все знания должны быть быть точным. Это правильно, поэтому для построения эффективных карт также требуется лучшее сочетание экспертов и алгоритмов.
Построение товарной карты
Поняв цели и проблемы построения графа, мы представим конкретные планы построения данных товарного графа.
Иерархическое построение системы
Построение системы категорий
Основная категория описывает наиболее подробную категорию сущности товара, агрегирует категорию товаров и несет в себе конечный потребительский спрос пользователей, например, «молоко с высоким содержанием кальция», «вяленая говядина» и так далее. Существует также определенная разница между сущностной категорией и категорией.Категория представляет собой совокупность нескольких категорий.Это абстрактное понятие категории и не может быть указано в конкретной категории товаров, таких как "молочные продукты", "фрукты" и так далее.
Маркировка категории: Для построения карты продукта ключевым шагом является установление связи между продуктом и категорией, то есть маркировка продукта меткой категории. Через связь между товарами и категориями мы можем установить связь между товарами в библиотеке товаров и потребностями пользователей, а затем отображать конкретные товары для пользователей. Ниже приводится краткое введение в метод маркировки категорий:
- Пополнение словарного запаса категории: Маркировка категорий сначала должна создать предварительный словарь категорий товаров. Во-первых, мы получили предварительные слова-кандидаты продукта, выполнив сегментацию слов, NER, обнаружение новых слов и другие операции с источниками данных различных предприятий электронной коммерции Meituan, такими как товарные библиотеки, журналы поиска и торговые теги. Затем модель бинарной классификации обучается путем маркировки небольшого количества образцов (чтобы определить, является ли слово категорией). Кроме того, комбинируя методы активного обучения, мы выбираем неотличимые выборки из предсказанных результатов, снова маркируем их и продолжаем повторять модель до тех пор, пока модель не сойдется.
-
Маркировка категории: Во-первых, мы получаем категории-кандидаты в продукте, выполняя распознавание именованных объектов в названии продукта и комбинируя словарь категорий на предыдущем шаге, например, идентифицируя «обезжиренное молоко» и «молоко» в «Mengniu Skimmed Milk 500ml». Затем, после получения продукта и соответствующей категории, мы используем контролируемые данные для обучения двухклассовой модели для маркировки категорий, вводим пару, состоящую из SPU_ID продукта и TAG категории-кандидата, то есть
, и проверьте, совпадает он или нет. В частности, с одной стороны, мы используем богатый полуструктурированный корпус в бизнесе для построения статистических признаков вокруг слов-тегов, а с другой стороны, мы используем такие модели, как распознавание именованных сущностей и семантическое сопоставление на основе BERT, для создания высокоэффективных. функции корреляции порядка, Выше мы вводим вышеуказанные функции в окончательную модель для обучения модели. - Постобработка меток категорий: на этом этапе мы выполняем некоторые стратегии постобработки для категорий, отмеченных в модели, например, стратегии очистки категорий на основе корреляции изображений в сочетании с результатами распознавания именованных объектов в названии продукта и т. д.
Через три вышеуказанных шага мы можем установить связь между товарами и категориями.
Система категорий: Система категорий состоит из категорий и отношений между категориями. Отношения общих категорий включают синонимы и подчиненные. В процессе построения системы категорий для завершения отношений обычно используются следующие методы. В основном мы используем следующие методы:
- Интеллектуальный анализ отношений категорий на основе правил. В общих корпусных данных, таких как энциклопедия, некоторые категории имеют описания с фиксированными шаблонами, например, «кукуруза также известна как кукуруза, кукурузные початки, кукуруза, жемчужный рис и т. д.», «дуриан — один из известных тропических фруктов», поэтому , можно использовать правила для извлечения из них синонимов и верхних и нижних.
- Интеллектуальный анализ отношений категорий на основе классификации. Подобно методу маркировки категорий, упомянутому выше, мы конструируем синонимы и подчиненные как образцы
с помощью статистических признаков, извлеченных из товарных библиотек, журналов поиска, данных энциклопедии, пользовательского контента и основанных на Sentence-BERT для полученных семантических признаков. , модель бинарной классификации используется для оценки того, установлены ли отношения категорий. Для модели классификации, полученной путем обучения, мы также используем активное обучение для выбора сложных выборок в результатах, выполнения вторичной маркировки, а затем непрерывно повторяем данные для повышения производительности модели. - Обоснование отношений категорий на основе графов. После получения предварительных синонимов и верхних и нижних отношений мы используем эти существующие отношения для построения сети и используем GAE, VGAE и другие методы для прогнозирования связей в сети, чтобы завершить связь ребер графа.
Стандартные/абстрактные товары
Стандартные товары представляют собой детализацию, которая описывает объективные факты самих товаров и не имеет ничего общего с каналами продаж и продавцами, в то время как товарные штрих-коды являются объективной основой для стандартных товаров. Стандартная ассоциация продукта означает, что бизнес-номера SKU/SPU, которые относятся к одному и тому же штрих-коду продукта, правильно связаны со штрих-кодом продукта, чтобы смоделировать соответствующие объективные знания на уровне стандартного продукта, такие как бренд, вкус и атрибуты упаковки стандартного продукта. продукты. . Ниже приведен случай, иллюстрирующий конкретные задачи и программы, связанные со стандартными продуктами.
**Корпус:** На изображении ниже показан стандартный трехметровый удлинитель быка. Когда продавец вводит информацию, он напрямую связывает продукт со штрих-кодом продукта. Часть стандартной ассоциации товаров завершается за счет данных, введенных продавцом, но доля этой части относительно невелика, и существует большое количество отсутствующих и неправильных ссылок. Кроме того, у разных продавцов разные описания названия товара для одного и того же стандартного товара. Наша цель — заполнить недостающие ссылки и связать товар с правильным списком.
Для стандартной задачи ассоциации продуктов мы построили модель различения синонимов в области товаров: используя небольшой объем связанных данных, предоставленных продавцами в режиме удаленного контроля, в качестве существующего графа знаний для построения обучающих выборок с удаленным контролем. В модели положительными примерами являются стандартные коды с относительно высокой достоверностью, отрицательными примерами являются SPU с похожими названиями продуктов или изображениями в исходных данных, но не принадлежащими одному стандарту. После построения обучающих выборок с относительно высокой точностью модель синонимов обучается с помощью модели BERT. Наконец, благодаря автономному методу шумоподавления модели окончательная точность может достигать более 99%. Как правило, он может быть чувствителен к таким параметрам, как бренд, спецификация и упаковка.
Абстрактный товар — это уровень познания пользователя, поскольку объект комментируется пользователем, этот уровень более эффективен для моделирования пользовательских предпочтений. В то же время при отображении информации для принятия решений степень детализации абстрактных товаров также больше соответствует познанию пользователя. Например, в рейтинге мороженого, показанном на рисунке ниже, перечислены SKU, соответствующие абстрактным продуктам в сознании пользователя, а затем соответственно отображаются характеристики и причины рекомендаций для различных абстрактных продуктов. Общий метод построения слоя абстрактного товара аналогичен слою стандартного товара.Он использует процесс модели, связанный со стандартным продуктом, и корректирует правила в части построения данных.
Построение атрибутивного измерения
Всестороннее понимание продукта должно охватывать различные аспекты атрибутов. Например, «Картофельные чипсы со вкусом огурца Lay's» необходимо найти соответствующую марку, категорию, вкус, характеристики упаковки, этикетки, происхождение, характеристики комментариев пользователей и другие атрибуты, чтобы точно охватить пользователей в таких сценариях, как поиск продукта и рекомендация. . Исходные данные для анализа атрибутов товаров в основном включают три измерения: название товара, изображение товара и частично структурированные данные.
Название продукта содержит наиболее важную информацию о продукте.В то же время модель анализа названия продукта может быть применена для понимания запросов, которые могут быстро и глубоко понять и разделить для пользователей, а также могут предоставить высокоуровневые функции для нисходящая сортировка отзыва. Поэтому здесь мы сосредоточимся на методе извлечения атрибутов с использованием названия продукта.
Общий анализ названия продукта можно смоделировать как задачу аннотирования текстовой последовательности. Например, для названия продукта «Lay's Cucumber Potato Chips» цель состоит в том, чтобы понять каждый компонент в текстовой последовательности заголовка, такой как соответствующий бренд Lay, огурец, соответствующий вкусу, картофельные чипсы — это категория, поэтому мы используем распознавание именованных объектов. (NER) модель для анализа названия продукта. Тем не менее, есть три основных проблемы при анализе названия продукта: (1) меньше контекстной информации; (2) полагаться на здравый смысл; (3) данные маркировки обычно содержат больше шума. Чтобы решить первые две проблемы, мы сначала пытаемся ввести в модель графическую информацию, которая в основном включает следующие три измерения:
- Информация об узле: Используйте объект графа в качестве словаря и обращайтесь к нему в формате Soft-Lexicon, чтобы облегчить проблему ошибки сегментации границ NER.
- Связанная информация: Анализ названия товара опирается на здравый смысл. Например, в отсутствие здравого смысла, только из названия «Картофельные чипсы с огурцом Lay's», мы не можем подтвердить, является ли «огурец» товарной категорией или атрибутом вкуса. Поэтому мы вводим ассоциированные данные графа знаний, чтобы смягчить проблему отсутствия знаний здравого смысла: в графе знаний есть связь «бренд-продажа-категория» между Lay’s и картофельными чипсами, но прямой связи нет. между Lay's и огурцами Таким образом, структура графа может быть использована для облегчения проблемы отсутствия здравого смысла в модели NER. В частности, мы используем технологию встраивания графа для встраивания и представления графа, используем информацию о структуре графа для представления слов и слов в графе, а затем объединяем встроенное представление, содержащее информацию о структуре графа и представление семантика текста Fusion, а затем подключенная к модели NER, позволяет модели учитывать как семантику, так и информацию здравого смысла.
- Информация о типе узла: одно и то же слово может обозначать разные атрибуты. Например, "огурец" может использоваться и как категория, и как атрибут. Поэтому, когда Graph Embedding моделируется на графе, мы разделяем узлы сущностей по разным типам. Когда представление узла графа интегрировано в модель NER, механизм внимания используется для выбора представления, соответствующего типу объекта, который более семантически непротиворечив в соответствии с контекстом, чтобы облегчить проблему различных значений слов в разных типах. , и реализовать слияние различных типов сущностей.
Далее мы обсудим, как смягчить проблему шума маркировки. В процессе маркировки неизбежна проблема отсутствия или неправильной маркировки, особенно в случае сложной маркировки, такой как название продукта NER, что особенно важно. Для проблемы шума в размеченных данных маркировка шума оптимизируется следующим образом: вместо использования исходного жесткого метода обучения, который равен либо 0, либо 1, принимается мягкий метод обучения, основанный на данных достоверности, а затем итеративно пересекает Начальная загрузка Проверка, а затем корректировка на основе достоверности текущего обучающего набора. С помощью экспериментов мы подтвердили, что при использовании многократных итераций Soft training + Bootstrapping эффект модели был значительно улучшен на наборах данных с относительно большим коэффициентом шума. Конкретный метод можно найти в нашей статье «Итеративная стратегия распознавания именованных объектов с несовершенными аннотациями» в конкурсе NLPCC 2020.
Повышение эффективности
Построение графов знаний часто представляет собой метод интеллектуального анализа данных, который формулируется отдельно для данных каждого измерения поля. Этот метод добычи данных является трудоемким и относительно неэффективным.Для каждого отдельного поля и каждого отдельного измерения данных нам необходимо настроить построение связанных с задачей функций и помеченных данных. На рынке сырьевых товаров существует множество аспектов майнинга, поэтому повышение эффективности также имеет решающее значение. Сначала мы моделируем задачу извлечения знаний как три категории задач классификации, включая моделирование узлов, моделирование отношений и ассоциацию узлов. В процессе обучения всей модели два шага, упомянутые выше, на самом деле являются двумя шагами, которые необходимо оптимизировать для повышения эффективности: (1) извлечение признаков для задач; (2) аннотация данных для задач.
Что касается части извлечения признаков, мы отказываемся от метода настройки интеллектуального анализа признаков для различных задач интеллектуального анализа данных, но пытаемся отделить функции и задачи, построить общую систему интеллектуального анализа карт для нескольких задач и использовать массивные библиотеки функций для целевых узлов. /relationships/ представлены ассоциации, а контролируемые обучающие данные используются для комбинирования и выбора признаков. В частности, построенная нами система признаков графа в основном состоит из четырех типов групп признаков:
- Функция типа шаблона правила в основном использует искусственные предварительные знания для интеграции возможностей модели правил.
- Функции статистического распределения могут в полной мере использовать различные корпуса и вести статистику на основе разных корпусов и разных уровней и измерений.
- Функции синтаксического анализа используют возможности модели в области НЛП для представления многомерных функций, таких как сегментация слов, часть речи и синтаксис.
- Внедрение репрезентативных функций — это возможность использовать возможности моделей высокого уровня для введения моделей семантического понимания, таких как BERT.
Что касается части маркировки данных, мы в основном повышаем эффективность с трех точек зрения.
- Благодаря полууправляемому обучению немаркированные данные полностью используются для предварительного обучения.
- С помощью методов активного обучения для маркировки выбираются образцы, которые обеспечивают наибольший прирост информации для модели.
- Метод удаленного контроля используется для создания образцов удаленного контроля для обучения модели на основе существующих знаний, чтобы максимизировать ценность существующих знаний.
Интеграция человека и машины - построение профессиональной карты
В настоящее время структура отрасли медицины и здравоохранения меняется, и потребители все больше склоняются к использованию медицинских онлайн-решений и услуг по доставке лекарств, поэтому фармацевтический бизнес постепенно становится одним из важных направлений бизнеса Meituan. По сравнению с построением обычных графиков знаний о товарах знания в области лекарственных средств обладают следующими двумя характеристиками: (1) они являются узкоспециализированными и требуют соответствующих фоновых знаний для оценки соответствующих атрибутивных измерений, таких как применимые симптомы лекарств и т. д. . (2) Требования к точности чрезвычайно высоки, а ошибки не допускаются для сильных профессиональных знаний, иначе это, скорее, приведет к серьезным последствиям. Поэтому мы используем комбинацию интеллектуальных моделей и экспертных знаний для построения графа знаний о наркотиках.
Знания в карте наркотиков можно разделить на две категории: слабые профессиональные знания и сильные профессиональные знания Слабые профессиональные знания — это знания, которые обычные люди могут легко приобрести и понять, например, как употреблять наркотики, подходящие группы и т. д. Знания о чем могут судить люди с профессиональным образованием, такие как основное заболевание, препарат, симптомы адаптации и т.д. Так как эти два типа данных имеют разную степень зависимости от экспертов, мы принимаем разные ссылки на майнинг:
- слабая экспертиза: Для интеллектуального анализа слабых профессиональных знаний карт наркотиков мы извлекаем соответствующую информацию из источников данных, таких как инструкции и энциклопедические знания, и объединяем правила и стратегии, обусловленные экспертными знаниями, для извлечения соответствующих знаний с помощью общей семантической модели. пакетная выборка для завершения построения данных.
- Сильный опыт: Для тщательного анализа профессиональных знаний о картах наркотиков, чтобы обеспечить 100% точность соответствующих знаний, мы извлекаем возможные измерения атрибутов, связанных с наркотиками, с помощью модели, а затем передаем эти возможные знания экспертам для полной проверки качества. Здесь мы в основном используем способность алгоритмов минимизировать энергозатраты профессиональных фармацевтов на уровне исходных данных и повысить эффективность извлечения экспертами профессиональных знаний из полуструктурированного корпуса.
В узкоспециализированных областях, таких как фармацевтика, часто существуют различия в выражении профессиональных знаний и привычек пользователей. Следовательно, в дополнение к добыче сильной и слабой экспертизы, нам также необходимо заполнить пробел между профессиональными знаниями и пользователями, чтобы лучше сочетать карту наркотиков с последующими приложениями. С этой целью мы изучили псевдонимы данных о заболеваниях, симптомах и эффективности, а также данные об общих названиях непатентованных названий лекарств из таких источников данных, как журналы поведения пользователей и ежедневные разговоры в полевых условиях, чтобы открыть путь между привычками пользователей и профессиональными выражениями.
Применение товарной карты
Поскольку Google применил графы знаний к поисковым системам и значительно улучшил качество поиска и взаимодействие с пользователем, графы знаний сыграли важную роль в различных вертикальных сценариях. В области товаров Meituan мы также эффективно применяем графики товаров в нескольких последующих сценариях, таких как поиск, рекомендация, сторона продавца и сторона пользователя в товарном бизнесе.Далее мы представим несколько типичных случаев.
структурированный отзыв
Данные карты продукта очень полезны для понимания продукта. Например, при поиске товаров, если пользователи ищут головные боли и боли в спине, они могут узнать, какие лекарства обладают обезболивающим эффектом, только через структурированную карту знаний; когда пользователи ищут симпатичную клубнику и огуречные чипсы, им нужно полагаться на здравый смысл. Знания, чтобы понять, что настоящие потребности пользователей — это мороженое и картофельные чипсы, а не клубника и огурцы.
Обобщение модели ранжирования
Информация о категории, информация о категории и информация об атрибутах графика могут использоваться в качестве относительно строгого метода оценки корреляции и метода вмешательства, с одной стороны, а с другой стороны, они могут предоставлять различные возможности грубой и мелкозернистой агрегации продуктов, которые можно использовать в качестве функций обобщения для обеспечения сортировки.Модель может эффективно улучшить способность модели ранжирования к обобщению и имеет более высокую ценность для товарного поля, где поведение пользователей особенно редкое. Конкретные способы использования функций включают:
- Товары агрегируются по каждой степени детализации, а модель ранжирования связана с функцией идентификации.
- Построение статистических признаков осуществляется после агрегирования каждого размера частиц.
- Многомерное векторное представление продуктов и модель ранжирования объединяются посредством представления встраивания графа.
Мультимодальное встраивание графа
Существующие исследования доказали во многих областях, что встраивание данных графа знаний и их объединение с моделью сортировки в виде многомерного векторного представления может эффективно упростить данные в сценариях сортировки/рекомендации за счет введения внешних знаний. и проблемы с холодным пуском. Однако традиционная работа по встраиванию графа часто игнорирует мультимодальную информацию в графе знаний.Например, в поле товара у нас есть непростые знания типа узла графа, такие как изображение товара, название товара, и введение торговца.Введение также может еще больше повысить информативность встраивания графа для рекомендации/рейтинга.
Существующие методы встраивания графов имеют некоторые проблемы при применении к мультимодальному представлению графов, потому что в мультимодальных сценариях значение ребер в графах больше не является простой связью семантических рассуждений, а является мультимодальной связью, Поэтому мы также предлагаем MKG Entity Encoder и MKG Attention. Слой для лучшего моделирования мультимодального графа знаний в соответствии с характеристиками мультимодального графа и эффективного доступа к его представлению в модели рекомендаций/ранжирования. Конкретные методы см. в нашей статье «Мультимодальные графы знаний для рекомендаций Системы», опубликованной на CIKM 2020.
Оптимизация со стороны пользователя/торговца
Товарный график предоставляет пользователю явную и интерпретируемую информацию, помогающую пользователям принимать решения. Конкретные формы презентации включают в себя элементы скрининга, избранные теги, списки и причины для рекомендации и т. д. Размер элемента фильтра определяется категорией атрибута, которая интересует пользователя в категории, соответствующей текущему слову запроса. Например, когда пользователь ищет картофельные чипсы, пользователь обычно обращает внимание на их вкус, упаковку, чистое содержимое и т. д. Значения перечисления данных по этим измерениям показывают элементы фильтра. Теги функций продуктов получаются путем извлечения заголовка, информации о странице сведений о продукте и данных комментариев, а также отображают характеристики продукта с краткими и четкими структурированными данными. Причины рекомендаций для продуктов получаются по двум каналам: извлечение комментариев и генерация текста, и связаны со словами запроса, чтобы указать причины, по которым продукты стоит покупать с точки зрения пользователя, в то время как данные списка являются более объективными, отражая качество продуктов. с реальными данными, такими как продажи.
На стороне продавца, то есть на стороне продавца, карта продукта предоставляет возможности прогнозирования в реальном времени на основе названий продуктов, помогая продавцам устанавливать категории и улучшать информацию об атрибутах. Например, после того, как продавец заполнит заголовок «12 ящиков немецко-азиатского обезжиренного чистого молока», служба онлайн-прогнозирования категорий, предоставляемая картой продуктов, может поместить его в категорию «Продукты питания и напитки-Молочные продукты-Чистое молоко» и идентифицируйте его через сущность. Сервис, получите атрибутивную информацию «Происхождение-Германия», «Импорт-Импорт», «Марка-Дея», «Жирность-Обезжиривание», «Спецификация-12 Коробка» продукта, после прогноз завершен, он будет подтвержден и опубликован продавцом, что снизит стоимость обслуживания информации о продукте для продавцов и улучшит качество информации о выпущенных продуктах.
об авторе
Сюэ Чжи, Фэн Цзяо, Цзы Вэнь, Куан Цзюнь, Линь Сен, У Вэй и другие — все из Центра НЛП отдела поиска и НЛП платформы Meituan.
Предложения о работе
Команда Meituan по картированию знаний о мозге постоянно набирает большое количество вакансий, включая стажировки, набор в школу и социальный набор. Координаты: Пекин / Шанхай. Заинтересованные студенты могут присоединиться к нам и использовать технологию картирования естественного языка и знаний, чтобы помочь всем. ешьте лучше, жизнь стала лучше. Резюме можно отправлять по адресу:caoxuezhi@meituan.com.
Прочтите другие подборки технических статей от технической команды Meituan
внешний интерфейс | алгоритм | задняя часть | данные | Безопасность | Эксплуатация и техническое обслуживание | iOS | Android | контрольная работа
|Ответьте на ключевые слова, такие как [акции 2020 г.], [акции 2019 г.], [акции 2018 г.], [акции 2017 г.] в диалоговом окне строки меню общедоступной учетной записи, и вы сможете просмотреть коллекцию технических статей технической группы Meituan в течение годы.
| Эта статья подготовлена технической командой Meituan, авторские права принадлежат Meituan. Добро пожаловать на перепечатку или использование содержимого этой статьи в некоммерческих целях, таких как обмен и общение, пожалуйста, укажите «Содержимое воспроизводится технической командой Meituan». Эта статья не может быть воспроизведена или использована в коммерческих целях без разрешения. Для любой коммерческой деятельности, пожалуйста, отправьте электронное письмо по адресуtech@meituan.comПодать заявку на авторизацию.