GENE: образ жизни GENeral NEeds net — это карта знаний, которая глубоко исследует разнообразные потребности пользователей в сценариях локальной жизни с точки зрения потребностей пользователей и связывает их с многоотраслевыми и многотипными поставками. соответствие спроса и предложения платформы и способствовать росту бизнеса. В этой статье представлены предыстория, дизайн системы и практика алгоритмов комплексной карты спроса в местной жизни, а также показано применение в нескольких направлениях бизнеса Meituan, в надежде принести вам некоторую помощь или вдохновение.
1. Предпосылки
1.1 Бизнес-статус
С миссией «помочь всем лучше питаться и жить лучше» Meituan занимается едой на вынос, питанием, гостиницами, проживанием в семье, путешествиями, билетами, фильмами/спектаклями, отдыхом/играми, красотой, медицинским обслуживанием, родителями и детьми, образованием, браком, сотнями таких отраслей, как службы жизнеобеспечения, удовлетворяют разнообразные потребности сотен миллионов пользователей в сфере жизнеобеспечения. Чтобы постоянно повышать ценность платформы, помимо содействия постоянному улучшению количества и качества пользователей и продавцов, она также является одной из важных отправных точек для более эффективного удовлетворения потребностей пользователей и предложения продавцов. .
Чтобы повысить эффективность сопоставления, нам нужно больше, глубже понять потребности пользователей и продавцов, а также попытаться организовать и управлять поставками с точки зрения пользователя. В настоящее время «Промышленный класс - Торговцы - Продукты» является более распространенной организацией снабжения и управления, однако с быстрым развитием бизнеса и промышленности путь этой организации постепенно выделялся, например:
- Для некоторых пользователей необходимо с неясной направленностью, трудно получить подходящие результаты сопоставления. Например, «Где играть с ребенком в выходные дни?» Из-за неудовлетворительных результатов сопоставления на платформе пользователи часто могут только полные решения в оффлайн, решите взять ребенка на барбекю в сельском садам, а затем искать соответствующий фермерский дом полоса на платформе.
- Некоторые требования охватывают несколько категорий, и процесс сопоставления недостаточно гладкий. Например, «Где отдохнуть с друзьями на выходных?» После того, как пользователь завершит выбор категории в автономном режиме, необязательные категории включают КТВ, бары, секретные комнаты, настольные игры и т. д., но несущие страницы различного назначения независимы друг от друга. другой, и пользователь должен быть между несущих страниц. Переключение вперед и назад.
- В некоторых четко направленных категориях пользователям по-прежнему сложно найти расходные материалы, отвечающие их потребностям. Например, в категории эстетической медицины из-за отсутствия соответствующих знаний пользователи часто не понимают функций различных предметов услуг, предоставляемых продавцами, для чего подходят детали и какие материалы следует использовать, и не могут эффективно найти подходящие сервисные материалы для себя.
Основная причина вышеуказанных проблем заключается в том, что организация снабжения в основном осуществляется с точки зрения отрасли и не полностью учитывает точку зрения пользователей. В текущих рыночных условиях, когда удовлетворение потребностей пользователей является основной целью, нам необходимо последовательно улучшать существующую организацию снабжения.
1.2 Анализ проблемы
Чтобы решить вышеуказанные проблемы, мы пытаемся проанализировать с внешней точки зрения в сочетании с первыми принципами. Во всем человеческом обществе, согласно иерархии потребностей Маслоу[1]Согласно теории, потребности человека можно суммировать и стратифицировать. Если вы думаете о человеческом обществе как о системе, люди удовлетворяют свои потребности посредством операций в одной из этих подсистем, называемых «рынками».
Люди начинают с уровня спроса, совершают транзакции на рынке, и конечный спрос удовлетворяется, тогда процесс торговли на рынке можно разобрать на «исходные мысли->рассмотреть->выбрать оценку->покупка транзакции->производительность/ обслуживание». И на первых трех стадиях потребности пользователей постепенно превращаются из крупнозернистых в детализированные, из абстрактных в конкретные. Следующее будет интерпретироваться в сочетании с конкретными примерами:
- иерархия потребностей: В иерархии потребностей Маслоу есть эмоциональный уровень, который соответствует богатым и разнообразным эмоциональным потребностям людей, включая семью, дружбу, любовь и так далее. Как мать, у вашего ребенка часто бывают крепкие отношения мать-ребенок, и вы хотите продолжать укреплять эту эмоцию.
- начать думать: С этой целью матери часто стараются проводить больше времени со своими детьми. Увеличивая измерение дружеских отношений, оно становится «игрой с ребенком», добавляя такие измерения, как время и пространство, становится «где играть с ребенком по выходным?»
- учитывать: Для приведенных выше проблем матери найдут множество решений, таких как открытые барбекю, ферма, тематические парки и так далее. Когда она решит выбрать вариант на открытом воздухе, она будет переводиться в определенные потребности товаров, таких как покупка гриля.
- Оценить варианты: Затем мать выбирает из доступных материалов. Как люди часто говорят, чтобы присмотреться к ценам, основа для выбора будет варьироваться, например, цена, качество, сарафанное радио и так далее.
- сделка покупка: Сделав выбор, мать обменяет на товары или услуги.
- Фулфилмент сервис: То есть приход товаров, выполнение услуг и так далее.
Рынок — это подсистема человеческого общества, а платформа электронной коммерции — подсистема рынка. В то же время платформа электронной коммерции представляет собой онлайн-подсистему, обеспечивающую поиск, рекомендацию и другие формы предоставления и поиска. Текущий статус-кво заключается в том, что пользователи часто завершают процесс от «инициирования мыслей» до «рассмотрения» в автономном режиме, преобразуя их в конкретные потребности в продуктах/услугах, а затем заходят на платформу электронной коммерции, чтобы завершить процесс «оценки выбора». к процессу «обслуживание производительности» (как показано на рисунке 1 ниже). Однако платформы электронной коммерции часто сосредотачиваются на улучшении возможностей последних трех этапов, и легко игнорировать первые два этапа.
Поэтому пользователям трудно сформировать менталитет для завершения «вдохновения» и «рассмотрения» на платформе, и большинство платформ электронной коммерции организуют и управляют поставками по принципу «отрасль-категория-торговец-товар». В конечном итоге между пользователями и платформами электронной коммерции формируются взаимозависимые отношения.
На самом деле, по сравнению с явным товарным спросом на «гриль», у пользователей все еще есть много абстрактных, расплывчатых и неясных требований, которые все еще застревают на первых двух этапах. Например, куда вы ходите играть с ребенком на выходных? Куда пойти отдохнуть с друзьями на выходных? Как сделать себя красивее перед свадьбой? Как развивать у детей практические навыки на летних каникулах? В то же время такие требования часто охватывают несколько категорий или в одной категории имеется несколько вариантов.
Платформа электронной коммерции может только дополнительно удовлетворить потребности пользователей, сломав существующие ограничения и предоставив пользователям возможность первых двух этапов (инициирование мыслей и размышление). Затраты пользователя на принятие решений дополнительно снижаются, процесс принятия решений становится более последовательным, и соответственно может быть улучшен пользовательский опыт.В то же время процесс транзакций пользователя на рынке может быть реализован в режиме онлайн.
Взяв за основу «промышленность-категория-торговец-товар»,Если платформа электронной коммерции сможет определить потребности пользователей на первых двух этапах и установить новые отношения между ними и предложением, дополненные возможностями поиска, такими как поиск и рекомендации, пользователи смогут пройти первые два этапа онлайн.. Как семантическая сеть, выявляющая отношения между сущностями, граф знаний особенно подходит для решения вышеуказанных задач.
2. Решения
2.1 Решения
Продолжая пример из 1.2, мать трансформировала спрос «где поиграть с ребенком по выходным?» в конкретный спрос на «барбекю на свежем воздухе» и расширила его до более конкретного спроса на «гриль» и «поход по магазинам». . В это время мать отправится на различные физические платформы электронной коммерции и платформы электронной коммерции жизненных услуг, представленные Meituan, чтобы провести «оценку выбора». Две платформы электронной коммерции используют технологии поиска и рекомендаций в физическом пуле поставок или пуле услуг, чтобы находить конкретные товары/услуги и давать обратную связь матери.
Для цели, описанной в 1.2, которую рассчитывает достичь техническая группа, текущим репрезентативным эталонным примером является когнитивная карта электронной коммерции Alibaba AliCoCo.[2]. Его основная идея построения состоит в том, чтобы начать с точки зрения пользователя, сначала выполнить различные типы атомарного анализа слов, а затем дополнительно объединить атомарные слова и извлечь соответствующие фразы-кандидаты, а затем определить из них реальные потребности пользователя и, наконец, связать их с соответствующее снабжение. Его иерархическая структура показана на рисунке 2:
- слой классификации: Создайте полную систему классификации, включающую различные классификации мира, включая общие категории, такие как пространство и время, а также такие категории, как цвета, функции и наиболее важные категории, связанные с электронной коммерцией.
- Слой атомарной концепции: Расширено на основе многих категорий в слое классификации, включая атомарные концепции по различным категориям (например, пространство->на открытом воздухе, события->барбекю, время->Рождество, цвет->красный, функция->тепло, категория-> платье) и атомарные концепции.
- Концептуальный слой электронной коммерции: Выше уровня атомарных концепций он содержит фразовую гранулярность покупательских потребностей пользователей, состоящую из атомарных концепций или непосредственно извлеченных, то есть концепций электронной коммерции (таких как барбекю на открытом воздухе), так что покупательские потребности пользователя явно выражены в фраза, соответствующая естественному языку.
- товарный слой: Содержит взаимосвязь между товарами и различными атомарными концепциями и концепциями электронной коммерции (такими как барбекю на открытом воздухе -> гриль, масло, оловянная фольга).
Основываясь на приведенной выше карте, мать может напрямую выразить потребность в «барбекю на открытом воздухе» на Tmall, а не в более конкретном «гриле»; Tmall также будет возвращать на этот сайт другие важные продукты, связанные с барбекю на открытом воздухе, кроме грилей. . С точки зрения соответствующих отношений уровень концепции электронной коммерции AliCoCo соответствует этапу «рассмотрения», а уровень товара соответствует этапу «оценки выбора». Очевидно, что благодаря существованию AliCoCo Tmall может вмешиваться в процесс транзакции пользователя со стадии «рассмотрения».
Из этого следует, что мы должны быть в состоянии построить более полную карту, охватывающую «намеренную» стадию. На этом этапе потребности человека, согласно иерархии потребностей Маслоу, постепенно визуализируются путем добавления одного или нескольких пространственных ограничений. Для таких размерных ограничений мы все вместе называем их «ограничениями сцены». Поэтому потребности, соответствующие стадии «рассмотрение», мы называем «конкретными потребностями», потребности, соответствующие стадии «исходные мысли», — «сценарными потребностями». Для этого мы хотим построитьКомплексная карта спроса на местную жизнь (Gene:lifestyle GEneral NEeds net), как показано на рисунке 3 ниже. Для сотен комплексных отраслей, вовлеченных в местную жизнь, мы считаем, что новый метод организации снабжения ближе к потребностям пользователей, а также решает проблему согласования спроса и предложения с точки зрения пользователя.
2.2 Конкретные планы
Продолжая идеи построения из 2.1, мы пытаемся построить многоуровневую структуру графа и разделить «репрезентативные требования» и «требования сценария» на независимые слои, что позволяет избежать сочетания двух типов требований в одном слое. может вызвать путаницу, а может провести более детальную разборку и более богатую характеристику потребностей пользовательских сценариев. Комплексная карта местного спроса (GENE) в основном состоит из шести частей, включая слой спроса сцены, слой элементов сцены, слой конкретного спроса, слой объектов спроса, уровень отраслевой системы и уровень предложения, как показано на рисунке. 4 ниже:
На уровне спроса сцены мы используем короткие предложения, понятные человеку, для представления потребностей пользователей на основе сцены, таких как «Где поиграть с 3-летним ребенком в Национальный день», «Сделай себя красивее перед свадьбой», « Учащиеся начальных классов улучшают свои мыслительные способности" "Подождите. Выражение требований сцены обычно включает такие элементы, как характер, цель, время, пространство и метод.В качестве примера возьмем «где играть с 3-летним ребенком в Национальный день», ребенок» — это персонаж, «играть с ребенком» — это цель, «Национальный день» — это время.
На уровне элементов сцены, чтобы лучше выразить требования к сцене, мы разбираем эти короткие предложения и уточняем их в несколько слов, и используем эти слова для описания персонажей, целей, времени, пространства, методов и других элементов сцены. Требования к сцене Для полного охвата и систематической организации мы называем это «Элементы сцены».
В слое конкретного спроса, поскольку выражение спроса сцены часто явно не указывает на конкретную услугу/предложение, а подразумевает группу потенциально подходящих услуг/предложения для этой сцены. Например, в примере «Где поиграть с 3-летним ребенком в Национальный день» барбекю на свежем воздухе, кормление альпак, катание на горках и катание на пони — все это конкретные услуги, соответствующие потребностям этого сценария. Итак, нам нужно показать все эти конкретные услуги в явном виде в виде фраз, эти фразы напрямую отражают конкретные требования пользователей к услугам, которые называются «репрезентативными требованиями».
На уровне объектов требований, чтобы лучше понять конкретные требования, мы делим конкретные требования на объекты, соответствующие конкретным требованиям службы, которые мы называем «объектами требований», и взаимодействие между пользователями и объектами в службе. Например, кормление альпак для конкретных нужд можно разделить на альпаки (объекты спроса) и кормление (сервисные взаимодействия).Ввиду разнообразия локальных жизненных услуг, кроме кормления альпак, объект спроса альпаки может также генерировать разнообразные образные потребности, такие как прикосновение к альпаке, катание на альпаке и просмотр выступлений альпаки. В дополнение к узлу объекта требования этот уровень также включает атрибутивную информацию объекта требования для более подробного описания объекта требования. Например, для конкретного спроса на барбекю на открытом воздухе его можно разделить на барбекю (объект спроса), на открытом воздухе (атрибут объекта спроса) и опыт (неявное сервисное взаимодействие).
На уровне отраслевой системы, поскольку потребности сцены и конкретные потребности пользователя часто охватывают несколько традиционных категорий услуг, чтобы определить конкретную область бизнеса для потребностей пользователей, нам также необходимо создать систему категорий, задействованную в каждой отрасли, как указано выше. бизнес-основа, построенная каждым уровнем.
На уровне предложения он включает виртуальное предложение, такое как контент, и физическое предложение, такое как продавцы и товары.Эти поставки будут связаны с узлами, такими как конкретный спрос и спрос на сцену, чтобы обеспечить соответствующую поддержку предложения для нужд пользователей. Например, предложение, которое обеспечивает барбекю на открытом воздухе, будет связано с конкретным спросом «барбекю на открытом воздухе» и, кроме того, связано со спросом сцены «где поиграть с 3-летним ребенком в Национальный день».
Подводя итог, можно сказать, что на комплексной карте потребностей местной жизни ситуационные потребности пользователя и конкретные потребности в услугах выражаются в виде требований сцены на уровне коротких предложений и конкретных требований на уровне фраз соответственно. Эти два требования выражаются через элементы сцены и объекты требований соответственно. Наконец, различные типы предложения будут связаны со спросом сцены и конкретным спросом, чтобы использовать спрос пользователя в качестве связующего звена для повышения эффективности согласования предложения и пользователя.
3. Метод реализации
В настоящее время всеобъемлющая карта спроса местной жизни первоначально покрывала разнообразные потребности пользователей в трех местных отраслях, связанных с жизнью: развлечения, медицинская красота и образование. В процессе построения карты мы строим ее слой за слоем снизу вверх в следующем порядке: слой отраслевой системы, слой объекта спроса, слой конкретного спроса, слой элементов сцены и слой спроса сцены, и соединяем узлы каждого слоя. с различными видами снабжения.Выстраивайте отношения. Далее в качестве примера будет взята индустрия развлечений, чтобы представить детали построения каждого слоя графа и задействованные алгоритмы.
3.1 Уровень отраслевой системы
3.1.1 Построение дерева категорий отраслей
В индустрии развлечений уровень отраслевой системы содержит категории, которые могут предоставлять развлекательные услуги, а информация о категориях представлена в виде древовидной структуры. Из-за построения системы игровой индустрии требования к экспертным знаниям очень высоки, а дизайн этой части очень важен для интеллектуального анализа последующих слоев, поэтому мы не определяли его напрямую вручную, а исходя из наших текущих зрелое дерево отраслевых категорий в качестве основы, построенное путем его обрезки и разделения.
Во-первых, отфильтруйте узлы категории первого уровня, связанные с игрой в дереве категорий, включая «досуг и развлечения», «родитель-ребенок», «туризм», «кейтеринг» и так далее. Для каждой категории первого уровня мы дополнительно фильтруем категории следующего уровня, связанные с игрой, до конечной категории, и отсекаем категории, не связанные с игрой. Кроме того, мы также разделяем конечные категории, связанные с игрой, которые можно подразделить в сокращенном дереве категорий, например, подразделяя «баню» на «частный суп», «банный центр» и т. д., и, наконец, получаем полную категорию игровой индустрии. дерево.
3.1.2 Ассоциация категорий поставок
После определения дерева категорий нам также необходимо получить связь между физическим предложением (торговцы и товары) и виртуальным предложением (контент, такой как UGC) и категориями, чтобы обеспечить поддержку данных для серии последующего майнинга. Поскольку и продукты, и контент могут быть связаны с продавцами, нам нужно только получить принадлежность между продавцами и категориями. Дерево игровых категорий получается путем обрезки и разделения наших существующих категорий.За исключением новых разделенных категорий, отношения между другими категориями и продавцами могут напрямую наследовать исходные результаты. Для вновь разделенной категории нам нужно восстановить связь между продавцом и ним.
Чтобы судить о том, к какой категории относится продавец, наиболее интуитивным основанием является имя продавца, название товара и сведения о товаре.Однако название продавца и информация о товаре многих продавцов часто содержат меньше информации, что усложняет идентификацию категории. Чтобы обеспечить точность различения категорий продавцов, мы ввели больше информации о продавце, в том числе о пользовательском контенте продавца и портрете продавца, а также разработали модель распознавания слияния разнородных данных из нескольких источников Общая структура модели показана на рисунке 5 ниже:
Среди них методы извлечения признаков и обработки данных из разных источников:
- Название продавца, название продукта и сведения о продукте: все текстовые данные напрямую через BERT.[3]Вывод после извлечения текстовых признаков.
- Пользовательский контент продавца: поскольку продавцы часто имеют большое количество пользовательского контента, чтобы эффективно использовать их информацию, сначала передайте Doc2Vec.[4]После кодирования, чтобы получить функции пользовательского контента, затем пройдите самостоятельную проверку[5]Модуль выводит после обработки признаков.
- Портрет продавца: после преобразования в функцию One-Hot она выводится после нелинейного сопоставления через полносвязный слой.
Вышеупомянутые три функции связаны и объединены, а окончательное различение категорий достигается за счет полностью подключенного слоя и слоя softmax. На основе моделирования слияния данных из нескольких источников была полностью использована информация о продавцах. Взяв в качестве примера подкатегорию ванны, используя только имя продавца, название продукта и подробные данные о продукте, уровень точности составляет 92 % на основе различения BERT, а уровень точности увеличивается до 98 % на основе слияния нескольких источников. модель.
3.2 Слой объектов требований
На уровне объекта спроса мы надеемся найти слова объекта игры, используемые в различных элементах системы игровой индустрии, в качестве узлов этого уровня.Эти слова могут описывать объекты взаимодействия пользователя в реальном игровом процессе.Это используется сформировать образную игровую основу потребностей. Чтобы обеспечить полноту интеллектуального анализа игровых объектов, мы принимаем форму мульти-метода с несколькими источниками.
Что касается данных, мы используем соответствующие тексты от продавцов и пользователей в качестве корпуса майнинга. С точки зрения метода, мы используем два способа добычи слов объекта воспроизведения:
- Во-первых, это неконтролируемое расширение. Перед началом майнинга операция сначала предоставит некоторые слова объекта воспроизведения в качестве начального ввода на основе опыта. Мы используем корпус для предварительного построения неконтролируемой модели Word2Vec структуры Skip-Gram. Извлечение векторов слов и объединение косинусного сходства. быстро расширять связанные объектные слова.
- Второй — контролируемая маркировка, которую мы определяем как проблему маркировки последовательности и используем модель на основе BERT+CRF для автоматической идентификации новых объектных слов в корпусе.
На практике, чтобы более эффективные раскопки мы сделаем соответствие текста без контролируемых ссылок и инспекции качества с точки зрения текста и преобразовать соответствующие результаты в учебные образцы с отметками мониторинга; в результате после проверки качества эксплуатации он будет Также используйте его в качестве сбалансированного расширения, в сочетании с двумя ссылками, мы завершили раскопки объекта PLAY, а полный процесс показан на рисунке 6 ниже. Кроме того, в процессе оперативного рассмотрения объекта Word, для некоторых основных портретных объектов, известных, он также напрямую введет в действие связанные функции сервисной сторон в качестве атрибута, и дополнительно улучшает информацию об игровом объекте, например, « Внезапный «этот объект Play, увеличить свойства типа, такой как« реальная сцена »и« рабочем столом ».
После получения объектного слова нам также необходимо знать, к какой категории принадлежит объектное слово, чтобы на следующем шаге мы могли выполнить конкретную добычу спроса и ассоциацию предложения.По этой причине мы строим отношения между объектным словом и категорией . Это самый интуитивный и самый точный метод измерения отношения между ними по количеству упоминаний целевого слова в корпусе текстов различных категорий. Поэтому мы напрямую используем объектные слова для сопоставления текстов в корпусе по каждой категории и определяем взаимосвязь по частоте слов. В то же время мы дополнительно строим гипонимные и синонимические отношения между объектными словами.В настоящее время существуют распространенные контролируемые методы, такие как различение отношений через проекцию и классификацию (например, модель отношений между предложениями BERT). В реальном процессе мы используем ручной метод с помощью правил и направляем руководство для быстрого завершения построения на основе статистических характеристик объектных слов и результатов совпадения шаблонов.
3.3 Уровень конкретного спроса
3.3.1 Добыча спроса на бетон
Слой изобразительного спроса можно рассматривать как набор конкретных требований к услугам пользователей в индустрии развлечений.Каждое требование образной игры является узлом слоя, а разнообразное интерактивное поведение и информация описания объектов между пользователями и объектами накладываются на развлечения. Полученные объекты выражают существенный призыв пользователя к предоставлению игровых услуг в виде фраз. Конкретный процесс майнинга игрового спроса можно разделить на два этапа:
- Генерация фразы-кандидата: Вокруг слов с игровыми объектами создается большое количество фраз, содержащих игровые объекты, в качестве набора кандидатов на конкретные игровые потребности.
- Дискриминация качества фраз: Создайте семантическую дискриминантную модель, чтобы извлечь реальные потребности в фигуративной игре из набора кандидатов.
Генерация фразы-кандидата
На шаге 1, во-первых, мы берем слово объекта спроса в качестве ядра и используем тот же корпус, что и анализ объекта воспроизведения, для генерации фраз-кандидатов. Алгоритмы извлечения общих фраз, такие как AutoPhrase[6], используя Ngrams для объединения фраз, и эта форма слишком избыточна для фраз с объектами спроса, поэтому мы рассматриваем анализ фраз на основе синтаксической структуры.
Чтобы сгенерированные фразы соответствовали синтаксическим требованиям, мы используем предустановленные синтаксические отношения в качестве шаблонов для майнинга. Чтобы более эффективно анализировать синтаксические отношения в крупномасштабном корпусе, мы взяли за основу более легкую ELECTRA.[7]После того, как предобучающая модель получит Embedding каждого компонента предложения, используйте BiAffine[8]Предсказать его синтаксическую связь. С помощью синтаксического анализа зависимостей мы выявляем фразы, которые содержат соответствующие игровые объекты и соответствуют синтаксическим отношениям в каждой категории корпуса. Кроме того, свойства объектов на уровне объектов требований также используются в качестве описаний объектов для генерации фраз. Наконец, все добытые фразы будут использоваться в качестве наборов-кандидатов для конкретных игровых требований после грубого отбора по статистическим характеристикам, таким как частота слов Пример извлечения показан на рисунке 7(а).
Дискриминация качества фраз
На шаге 2, хотя фразы-кандидаты, полученные на шаге 1, соответствуют заданной синтаксической связи, все еще остается большое количество выражений, не соответствующих реальным потребностям пользователей с точки зрения семантики.Путем выборочного анализа мы обнаружили, что фразы отвечающих требованиям менее 10%. Как выбрать фразы, которые отражают потребности реального пользователя в фигуративной игре, из огромного количества фраз-кандидатов, стало насущной проблемой, требующей решения.
AutoPhrase оценивает фразы с помощью дискриминационной модели, основанной на статистических признаках фраз.Однако трудно определить фразы с низким семантическим качеством только по статистическим признакам.По этой причине мы дополнительно строим Wide&Deep на основе совместного моделирования на основе статистических и семантических признаков.[9]Структурная дискриминантная модель для распознавания того, являются ли фразы в наборе-кандидате образными игровыми требованиями Мы надеемся, что дискриминантная модель сможет отфильтровать большое количество некачественных фраз, тем самым сэкономив много трудозатрат на операции. Общая структура дискриминантной модели показана на рисунке 7(b), где:
- В широкой части извлекаются глобальные и контекстуальные статистические характеристики фраз-кандидатов, и выходные данные выводятся после нелинейного отображения через полносвязный слой.
- В части Deep извлекаются глубинные семантические признаки фраз-кандидатов, а соответствующие признаки извлекаются и выводятся через BERT.
Функции, выдаваемые вышеупомянутыми широкими и глубокими частями, связаны и объединены, а преимущества дополняют друг друга.Окончательное различение фраз достигается за счет полного соединительного слоя и слоя softmax. На практике, в дополнение к прямому использованию накопленных фразовых тегов в качестве положительных образцов, мы также конструируем положительные образцы из набора кандидатов, предварительно задав некоторые шаблоны здравого смысла, такие как декоративные [растения], прикосновение [животные], и анализируем набор кандидатов. , Отбор проб и построение отрицательных образцов, завершение обучения исходной модели, а затем объединение активного обучения, после нескольких раундов итераций, модель, наконец, достигла уровня отзыва 92% и уровня точности 85%. Фразы, которые сохраняются после прохождения оценки качества, будут переданы оператору для ручной проверки и уточнения, чтобы стать окончательным требованием к образной игре.
3.3.2 Соотношение предложения и конкретного спроса
На уровне образного требования, поскольку образное игровое требование получено игровым объектом, между ними естественным образом устанавливается соответствующая связь. Что касается отношений между верхним и нижним и синонимичных отношений между требованиями к образной игре, отношения между объектами и их синтаксические отношения могут использоваться для помощи в ручном построении в процессе ручного просмотра. В дополнение к этому, более важно соотнести спрос на фигуративную игру с физическим предложением (торговцы и товары) и виртуальным предложением (контент, такой как UGC).
Мы абстрагируемся от этой проблемы как проблемы семантического сопоставления, которая достигается путем сопоставления спроса на образную игру с текстовой информацией, предоставленной соответствующей категорией, в которой продавец использует текстовую информацию имени продавца, товар использует название товара и текст сведений о товаре. информация, UGC Использовать собственную текстовую информацию. Поскольку пользовательский контент и товары являются частью продавцов, отношения между образными игровыми потребностями и пользовательским контентом/товарами также будут добавлены к построению их отношений с продавцами. Общий процесс сопоставления показан ниже на рисунке 8. Сначала мы сопоставляем требования к образной игре с пользовательским контентом/товарами, а затем объединяем результаты сопоставления текста имени продавца, чтобы связать их с продавцами посредством агрегирования правил.
Из-за большого количества требований к образной игре, а текстовая информация, предоставляемая при этом, обычно содержит несколько предложений, для баланса эффективности и эффекта мы разделяем процесс сопоставления на два этапа: припоминание и сортировка.
На этапе припоминания мы грубо отсеиваем предложения, которые потенциально могут быть связаны с потребностью в образной игре. Для требований к фигуративной игре мы расширяем теги синонимов образных требований на основе построенных синонимических отношений и выполняем крупномасштабное сопоставление шаблонов с текстом предложения.Для совпадающих предложений он войдет в стадию сортировки для уточненного расчета отношений.
На этапе сортировки мы строим модель семантического сопоставления на основе классификации отношений между предложениями BERT и достигаем классификации, добавляя полносвязный слой и слой softmax после BERT. Модель определяет отношение семантического соответствия (ассоциация/неассоциация) между ними путем прогнозирования грубо отобранных образцов, полученных на этапе отзыва. Средняя полнота и точность конечных ассоциаций поставки достигают 90% и 95% соответственно.
3.4 Слой объектов сцены
3.4.1 Разборка элементов сцены
Слой элементов сцены содержит элементы сцены, которые составляют требования пользователя к сцене. Как упоминалось в начале статьи, для описания сцены необходимо объяснить конкретные элементы, такие как персонажи, время, пространство и цель. Например, для требования сценария «Где поиграть с 3-летним ребенком в Национальный день?» мы можем сделать следующую разборку: время — Национальный день, персонаж — 3-летний ребенок, цель — семейное общение. (играет с ребенком). Поэтому разбираем элементы сцены вышеописанным способом, чтобы добывать и разбирать элементы сцены максимально комплексно и системно.
3.4.2 Интеллектуальный анализ элементов сцены
После завершения демонтажа элементов сцены следующим шагом является раскопка элементов сцены в каждой демонтированной категории. В качестве основанной на сцене информации о образных потребностях элементы сцены часто исходят из интуитивных ощущений пользователей, поэтому мы выбираем контекстный корпус UGC, связанный с требованиями к образной игре, для анализа корпуса. Подобно методу анализа объектов спроса, мы берем уточненные и обобщенные элементы сцены каждой категории в качестве начальных слов и завершаем анализ элементов сцены посредством расширения связанных элементов и маркировки последовательностей.
После определения элементов сцены следующим ключом является завершение взаимосвязи между элементами сцены и потребностями в образной игре, то есть для каждого элемента сцены выясните его подходящие потребности в образной игре, такие как любование цветущей сакурой весной и дети, близкие к животные. Проанализировав тексты пользовательского контента, мы обнаружили, что когда пользователи в пользовательском контенте говорят об определенном требовании к образной игре, они часто также объясняют некоторую соответствующую информацию об элементах сцены, поэтому мы продолжаем выбирать корпус контекста пользовательского контента, связанный с требованием к образной игре, в качестве отношения. источник.
Первоначально мы приняли метод, основанный на шаблонах, и, создав шаблоны, которые можно использовать для определения взаимосвязи между элементами сцены и требованиями фигуративной игры, мы напрямую извлекли тексты, содержащие и то и другое, из корпуса. Однако из-за разнообразия пользовательских выражений нельзя гарантировать не только уровень точности, но и ограниченный шаблон также влияет на отзыв, поэтому мы далее пытаемся использовать метод, основанный на различении моделей, для улучшения обобщения и улучшения построения отношения.
Поскольку требования к образной игре в используемом нами корпусе известны, если рассматривать элементы сцены как атрибуты требований к образной игре, то проблему можно рассматривать как проблему классификации по аспектам. Обратитесь к практике классификации настроений на уровне атрибутов.[10], мы строим вспомогательные предложения, заранее устанавливая шаблоны предложений, комбинируя элементы сцены и требования к образной игре, и преобразуем классификацию на уровне атрибутов в задачу классификации пар предложений, подобную QA. Например, для корпуса, который был связан с требованием образной игры «кормить альпак»: «Мы пошли на ферму, чтобы покормить альпак в эту субботу», одно из вспомогательных предложений: «подходит кормить альпак по выходным». .
Мы принимаем модель классификации отношений между предложениями BERT для реализации классификации пар предложений, как показано на рисунке 9. Вспомогательное предложение и текст корпуса соединяются [SEP] и затем вводятся в модель для различения, и модель выводит результат различения (подходит/не подходит). Наконец, мы голосуем за отношения между каждым элементом сцены и фигуративными потребностями в соответствии с результатами извлечения отношений для всех корпусов, а затем определяем отношения между ними.
3.5 Уровень требований сценария
3.5.1 Сборка требований сценария
В слое требований сцены мы соберем информацию слоя элементов сцены и слоя конкретных требований, чтобы сгенерировать большое количество требований сцены. Требования собранной сцены могут содержать только элементы сцены, такие как «Куда пойти с 3-летним ребенком в Национальный день?» без каких-либо конкретных требований, но могут также включать элементы сцены и конкретные требования, такие как «Сходить в музей». пригороды для сбора клубники по выходным». Среди них выходные и пригороды — элементы сцены, а сбор клубники — конкретное требование.
3.5.2 Различение требований сценария
Для требований к собранной сцене самое главное - обеспечить ее рациональность, например, "выходные" и "родитель-ребенок" - это разумные игровые сцены, а "подружки" и "родитель-ребенок" - противоречивые игровые сцены. Для этого нам сначала нужно рассчитать показатель взаимосвязи между элементами сцены, который определяет сборку требований к сцене. Элементы сцены имеют смысл только в том случае, если они опираются на конкретные потребности, соответствуют соответствующему игровому процессу и участвуют в сборке сцены. Поэтому для построения разумных отношений между элементами сцены мы пытаемся оценить корреляцию между двумя элементами сцены посредством переноса отношений на основе оценок отношений элементов сцены и конкретных потребностей.
В Разделе 3.4.2 мы количественно определили показатель взаимосвязи между элементами сцены и конкретными требованиями.Одна из наиболее интуитивно понятных идей состоит в том, чтобы вычислить взаимосвязь между элементами сцены посредством переноса отношения между элементами сцены — репрезентативными требованиями — элементами сцены. Как показано на рисунке 10(а), с конкретным требованием «покормить альпаку» в качестве ссылки можно получить оценки отношений двух элементов сцены «родитель-ребенок» и «подруга».
Сначала мы строим оценочную матрицу отношения между элементами сцены и образными потребностями.Учитывая, что количество игр удовлетворяет распределению с длинным хвостом, мы нормализуем столбцы размерности образного спроса на матрице.В то же время, чтобы обеспечить коэффициент автокорреляции матрицы элемента сцены-элемента сцены Если он равен 1, нормализация нормы строки L2 выполняется на нормализованной матрице спроса элемента сцены-образа.Поэтому новая матрица, полученная путем умножения нормализованной матрицы и ее транспонированной матрицы, может использоваться как элемент сцены-элемент сцены.Матрица оценки отношения.
С помощью описанного выше метода можно быстро получить оценку взаимосвязи между элементами сцены.Однако этот метод вычисляет только силу прямой кореферентности элементов сцены по образным требованиям в режиме передачи отношения элементы сцены-образные требования-элементы сцены, в результате чего сцена элементы Недостаточное освещение отношений. С этой целью мы расширяем режим передачи по более длинной цепочке отношений узлов, отношения передачи между узлами подчиняются марковскому свойству, как показано на рис. 10 (б). Но по мере роста пути доставки вычислительные затраты растут в геометрической прогрессии. Поэтому мы используем обучение с подкреплением[11]Одношаговый метод временной разности в решении использует концепцию «максимизации ожиданий совокупной отдачи» в качестве значения узла, набор узлов элементов сцены в качестве пространства состояний в концепции обучения с подкреплением и набор конкретных требований. узлы как пространство действия.
Например, когда мы находимся в состоянии элемента сцены «родитель-ребенок», мы можем перейти к следующему состоянию «подружки» или «на улице», выбрав «кормление альпаки» или «ролевая игра». Функция принятия решения этого процесса перехода состояния случайным образом выбирает конкретный узел требования из всех конкретных требований, связанных с текущим состоянием элемента сцены, в качестве поведения при принятии решения, и вероятность извлечения положительно коррелирует с оценкой; вероятность перехода состояния такова, что при решение конкретного узла спроса, случайным образом перейти к связанному с ним элементу сцены, и вероятность перехода положительно коррелирует с оценкой.
В то же время для конкретных взаимоисключающих отношений мы формулируем матрицу вознаграждения в соответствии с реальными требованиями бизнес-приложений, чтобы добиться разнообразной скоринговой модели отношений между элементами сцены. Таким образом, мы преобразуем модель переноса взаимосвязей узлов в марковскую модель принятия решений и комбинируем выражение итерации значения и формулу прогнозирования оценки отношения пар узлов, полученную из принципа оптимальности Беллмана, как показано на рисунке 10(c). В соответствии с формулой, показанной на рисунке, исходя из того, что стратегия остается неизменной, идея итерации начальной загрузки используется для вычисления значения узла и дальнейшего вычисления оценки отношения между элементами сцены, что может гарантировать, что информация о существующей сети отношений может быть использована более полно.Улучшите охват отношений, уменьшите влияние взаимоисключающих отношений за счет ограничительного отношения матрицы вознаграждения и гибко адаптируйтесь к потребностям различных предприятий.
Наконец, основываясь на оценках отношений между элементами сцены, мы выбираем требования сцены с высокими оценками из собранного набора требований сцены и генерируем окончательное выражение требования сцены в соответствии с предварительно заданным шаблоном, например, «отдохнуть с друзьями на выходных», « с подружками «Поиграй», «Хорошее место, чтобы сводить детей на шашлыки на природу в Национальный день». Эти требования к сценам могут быть связаны с соответствующими требованиями к фигуративной игре через содержащиеся в них элементы сцены/требования к фигуративной игре, а затем связаны с соответствующими расходными материалами, тем самым предоставляя пользователям игровые решения на основе сцены.
4. Практика применения
Всеобъемлющая карта спроса местной жизни охватывает потребности сцены и конкретные потребности пользователя. С одной стороны, она более активно участвует в принятии решений пользователем и влияет на пользователей на нескольких этапах, таких как «инициирование мыслей», «рассмотрение» и С другой стороны, «оценка выбора», снижающая стоимость принятия решения, обеспечивает более разнообразные варианты предложения и эффективно увязывает спрос и предложение. С точки зрения методов применения, он применяется к различным бизнес-формам, таким как поиск и рекомендация.
После почти года создания текущая комплексная карта спроса включает в себя сотни тысяч основных узлов спроса на бетон и требования сцены, а также десятки миллионов взаимосвязей.Выполняется предварительная практика применения, и следующие примеры представляют конкретные методы применения и эффекты применения.
4.1 Родитель-ребенок
Эффективность сопоставления пользовательского спроса и предложения на странице исходного канала «родитель-потомок» низка.ICON разделен в соответствии с традиционными категориями «родитель-потомок» и не может удовлетворить разные типы потребностей пользователей (слева на рис. 11(а)), в то время как Форма предложения Guess в нижней части одинарная и отражает, что высококачественного предложения, требуемого пользователями, недостаточно, а информации для принятия решений недостаточно (рис. 11(b) слева), поэтому страница родительско-дочернего канала изменена. Чтобы соответствовать бизнес-характеристикам «родитель-потомок», мы применяем узлы спроса и отношения, связанные с игрой «родитель-потомок», к нескольким позициям трафика после пересмотра канала, чтобы обеспечить поддержку меток и данных о поставках.
Среди них для ICON, основанных на высокочастотных сценах и образных потребностях, генерируются межкатегорийные ICON спроса, такие как «рядом с животными», «купание с младенцем» и т. д. (рис. 11(а)) и соответствующие вторичные страницы (рис. 11 (а) справа), эти ЗНАЧКИ содержат аналогичные потребности в исходных нескольких категориях и предоставляют пользователям информацию для принятия решений на этапе «рассмотрения».
Для нижней рекомендации мы оптимизируем предложение в соответствии с конкретными потребностями игры родителей и детей, рекомендуем связанный с ним контент в качестве высококачественного предложения и извлекаем тексты, содержащие соответствующие конкретные потребности для каждого предложения, и выставляем их в качестве причин рекомендации. Эти предложения основаны на реальных потребностях пользователей.Информация отображается под углом зрения, который сильно привлекает пользователей (рис. 11(б) справа). Кроме того, в соответствии с поведением при просмотре и транзакциях устанавливается связь между конкретными потребностями и пользователями с предложением в качестве среды, которая применяется для оптимизации отзыва и ранжирования персонализированных рекомендаций. Обновленная страница родительско-дочернего канала отвечает разнообразным потребностям пользователей в рекомендациях и значительно улучшает взаимодействие с пользователем.
4.2 Досуг и развлечения
На странице канала досуга и развлечений мы выполнили серию приложений, посвященных потребностям сцены и фигуративным потребностям. С одной стороны, новые ЗНАЧКИ сцены организованы в соответствии с потребностями сцены, такими как «прогулка и наслаждение цветами» для пользователей, играющих на открытом воздухе, «модная игра в помещении» для пользователей, играющих в помещении, «ночная жизнь» для пользователей, которым нравится чтобы играть ночью, и «вечеринка по созданию команды» для сбора и развлечения с друзьями и коллегами, эти ЗНАЧКИ начинаются с игры, основанной на сценарии пользователя, ломают ограничения традиционных категорий и делают сопоставление между пользователями и обеспечивают более гладкое , На вторичной странице каждого ЗНАЧКА будут отображаться все Конкретные игровые требования каждой сцены, а также связанные с ними торговцы и контент.
С другой стороны, в модуле навигации по сценам на странице канала попробуйте использовать требования сцены для дальнейшего отображения информации о воспроизведении на основе сцены, включая более десяти тем игровых сцен, таких как «Развлечение для одного человека», «Семейное тепло», «День рождения». и т. д. Рекомендуются торговцы, связанные с конкретными потребностями этих сценариев. Эти основанные на сценах приложения (рис. 12(а)) воздействуют на пользователей на «намеренном» этапе, что повышает эффективность принятия решений пользователем.
Кроме того, некоторые образные требования были переписаны и могут быть непосредственно использованы для быстрого отбора торговцев на странице списка соответствующей категории, например, убийство по сценарию в реальном времени/убийство по настольному сценарию, переодевание/опыт ханьфу/фаворит должен идти/симуляция полета и т. д. (рис. 12(b)), слева и посередине), а результаты нашей сегментации категорий на уровне отраслевой системы также можно использовать в качестве быстрого экрана для продавцов, например, подразделение категории ванны (справа в Рисунок 12(б) Применение этих быстрых экранов, Пользователям удобнее выбирать магазины.
V. Резюме и перспективы
В местных службах жизнеобеспечения перед нами стоит трудная задача: как постоянно повышать эффективность согласования между поставщиком и пользователями. Мы пытаемся взять внимание пользователя за отправную точку и соединить предложение и пользователя, углубившись в потребности пользователя и используя это как связующее звено. Чтобы всесторонне изучить и понять потребности пользователей, мы стремимся изучить и попытаться построить всеобъемлющую карту спроса на местную жизнь.Различные типы поставок создают ассоциации.
В настоящее время результаты комплексной карты спроса могут быть применены к различным бизнес-формам, таким как поиск и рекомендации, и достигли практических результатов в нескольких бизнес-сценариях Meituan. Тем не менее, мы все еще находимся на начальном этапе исследования, и нам еще предстоит пройти долгий путь, поэтому мы предлагаем некоторые последующие размышления и перспективы:
- Более широкий охват отрасли: с одной стороны, углубить построение существующих индустрий развлечений, медицинской красоты и образования, задействовать больше узлов и отношений и лучше понять потребности пользователей; с одной стороны, это будет охватывать больше отраслей, таких как красота и брак; дальнейшее расширение к полной ссылке на принятие решений пользователями, создайте карту обслуживания, охватите ссылку на обслуживание производительности, проанализируйте потребности пользователей и отзывы, а также предоставьте продавцам больше возможностей для улучшения взаимодействия с пользователем.
- больше ввода данных: Текущее построение графа в основном основано на текстовом корпусе пользователей и продавцов на платформе.Следующим шагом будет использование более модальных данных, таких как изображения, и попытка внедрить внешние знания для улучшения и дополнения текущих узлов и отношений.
- Более глубокие графические приложения: На данном этапе практика графов в поиске и рекомендациях в основном сосредоточена на прямом применении тегов и связанных с ними ресурсов. Последующее рассмотрение будет уделено дальнейшему углублению применения графов, в полной мере используя информацию о требованиях сцены и сцене элементы для более точного определения намерений пользователей на стороне рекомендаций Оказывать поддержку, тем самым повышая эффективность согласования поставок и пользователей и повышая ценность графа знаний.
использованная литература
- [1] Maslow A H. A theory of human motivation[J]. Psychological review, 1943, 50(4): 370.
- [2] Luo X, Liu L, Yang Y, et al. AliCoCo: Alibaba e-commerce cognitive concept net[C]. Proceedings of the 2020 ACM SIGMOD International Conference on Management of Data. 2020: 313-327.
- [3] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
- [4] Le Q, Mikolov T. Distributed representations of sentences and documents[C]. International conference on machine learning. PMLR, 2014: 1188-1196.
- [5] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. arXiv preprint arXiv:1706.03762, 2017.
- [6] Shang J, Liu J, Jiang M, et al. Automated phrase mining from massive text corpora[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(10): 1825-1837.
- [7] Clark K, Luong M T, Le Q V, et al. Electra: Pre-training text encoders as discriminators rather than generators[J]. arXiv preprint arXiv:2003.10555, 2020.
- [8] Dozat T, Manning C D. Deep biaffine attention for neural dependency parsing[J]. arXiv preprint arXiv:1611.01734, 2016.
- [9] Cheng H T, Koc L, Harmsen J, et al. Wide & deep learning for recommender systems[C]. Proceedings of the 1st workshop on deep learning for recommender systems. 2016: 7-10.
- [10] Sun C, Huang L, Qiu X. Utilizing BERT for aspect-based sentiment analysis via constructing auxiliary sentence[J]. arXiv preprint arXiv:1903.09588, 2019.
- [11] Sutton R S, Barto A G. Reinforcement learning: An introduction[J]. 2011.
об авторе
Li Xiang, Chen Huan, Zhiwei, Xiaoyang, Yanting, Xu Le, Cao Zhen и т. д. пришли из отдела технологии платформы Meituan Daodian в комплексную группу бизнес-данных.
Предложения о работе
Отдел технологии платформы Meituan Daodian - группа бизнес-данных Daozong, долгосрочный алгоритм найма (алгоритм обработки естественного языка / рекомендации), хранилище данных, наука о данных, разработка систем и другие должности, расположенные в Шанхае. Заинтересованные студенты могут направить свои резюме по адресу:licong.yu@meituan.com.
Прочтите другие подборки технических статей от технической команды Meituan
внешний интерфейс | алгоритм | задняя часть | данные | Безопасность | Эксплуатация и техническое обслуживание | iOS | Android | контрольная работа
|Ответьте на ключевые слова, такие как [акции 2020 г.], [акции 2019 г.], [акции 2018 г.], [акции 2017 г.] в диалоговом окне строки меню общедоступной учетной записи, и вы сможете просмотреть коллекцию технических статей технической группы Meituan в течение годы.
| Эта статья подготовлена технической командой Meituan, авторские права принадлежат Meituan. Добро пожаловать на перепечатку или использование содержимого этой статьи в некоммерческих целях, таких как обмен и общение, пожалуйста, укажите «Содержимое воспроизводится технической командой Meituan». Эта статья не может быть воспроизведена или использована в коммерческих целях без разрешения. Для любой коммерческой деятельности, пожалуйста, отправьте электронное письмо по адресуtech@meituan.comПодать заявку на авторизацию.