Концептуальная карта здравого смысла - это своего рода карта знаний, построенная на концепциях здравого смысла и отношениях между сущностями, с акцентом на сцену Meituan. В этой статье представлена схема построения концептуальных карт Meituan на основе здравого смысла, проблемы, возникающие при построении карт, и практика алгоритмов в процессе построения, а также некоторые текущие бизнес-приложения концептуальных карт на основе здравого смысла.
Введение
При обработке естественного языка мы часто думаем о том, как хорошо понимать естественный язык. Для нас, людей, чтобы понять текстовую информацию на естественном языке, мы обычно связываем текущую информацию с связанной информацией, хранящейся в нашем мозгу, и, наконец, понимаем информацию. Например, «он не любит яблоки, но любит мороженое». Когда люди понимают, они связывают в своем мозгу когнитивную информацию: яблоки сладкие и немного хрустят, мороженое слаще яблок, мягкое и клейкий, летом холодный Может облегчить жару, дети предпочитают есть сладости и мороженое. Таким образом, в сочетании с этим знанием можно вывести несколько причин предпочтения мороженого. Однако многие работы по пониманию естественного языка по-прежнему сосредоточены на информационном уровне Текущая работа по пониманию похожа на байесовскую вероятность, которая находит максимальную текстовую информацию, соответствующую условиям, из известного обучающего текста.
Понимание текста как человека при обработке естественного языка является конечной целью обработки естественного языка, поэтому все больше и больше исследований в настоящее время вводят некоторые дополнительные знания, чтобы помочь машинам хорошо понимать тексты на естественном языке. Простая текстовая информация является только выражением внешних объективных фактов, а знание — это индукция и обобщение внешних объективных фактов на основе текстовой информации.Поэтому вспомогательная информация знаний добавляется к обработке естественного языка, чтобы сделать естественный язык лучше понятным.
Создание свода знаний — это прямой способ помочь более точному пониманию естественного языка. Граф знаний предлагается вокруг этой идеи, и ожидается, что, давая машине явное знание, машина сможет рассуждать и понимать, как человек. Таким образом, в 2012 году Google официально предложил концепцию сети знаний, первоначальная цель которой состояла в том, чтобы оптимизировать результаты, возвращаемые поисковыми системами, и повысить качество поиска и опыт пользователя.
2. Введение в концептуальную карту здравого смысла
Карта понятий здравого смысла предназначена для установления связи между понятиями и помощи в понимании текста на естественном языке. В то же время наша концептуальная карта здравого смысла фокусируется на сцене Meituan, помогая улучшить эффект поиска, рекомендаций, потоковой передачи каналов и т. д. на сцене Meituan.
В соответствии с потребностями в понимании, есть в основном три измерения способности к пониманию:
- что, что такое концепция, и установить систему корреляции того, что является основной концепцией. Например "ремонт стиральной машины", что такое "ремонт", что такое "стиральная машина".
- какого рода, атрибут определенного аспекта основного понятия, уточнение определенного аспекта основного понятия. «Ресторан с террасой», «Парк развлечений для родителей и детей», «Дворец с террасой», «Родитель-ребенок» и «Фруктовый мелалеука» — все это атрибуты определенного аспекта основной концепции, поэтому необходимо установить ядро Концепция Соответствующие атрибуты и ассоциации между значениями атрибутов.
- что подарить, чтобы устранить разрыв между концепцией поиска и концепцией предприятия, такой как «чтение», «шопинг», «прогулка с ребенком» и т. д., нет четкой соответствующей концепции предложения, поэтому создайте ассоциативную сеть между поиском и поставлять концепции для решения этого типа проблемы.
Подводя итог, можно сказать, что архитектура таксономии охватывает понятие «что», отношение атрибутов понятия «что» и отношение наследования понятия «что давать». В то же время POI (точка интереса), SPU (стандартная единица продукта) и Tuandan, как экземпляры на сцене Meituan, должны устанавливать связи с понятиями на графике.
Начиная с целей построения, работа по построению общей концептуальной карты здравого смысла разобрана и разделена на три типа узлов и четыре типа отношений.Конкретное содержание заключается в следующем.
2.1 Три типа узлов в графе
Узел таксономии: В карте понятий для понимания понятия требуется разумная система знаний.Предопределенная система знаний таксономии служит основой для понимания и делится на два типа узлов в предопределенной системе: первый тип может использоваться в качестве ядра в Появляются категории сцены Meituan, такие как ингредиенты, предметы, места; появляется еще одна категория как способ определения основных категорий, таких как цвета, методы и стили. Определения этих двух типов узлов могут помочь понять поиск, рекомендацию и т. д. Текущие предопределенные узлы таксономии показаны на следующем рисунке:
Атомный концептуальный узел: составляет наименьшую семантическую единицу узла графа и имеет слова с наименьшей степенью детализации с независимой семантикой, такие как чистый красный, собачий кофе, лицо, увлажнение и т. д. Все определенные атомарные понятия должны быть связаны с определенными узлами таксономии.
Узел составной концепции: узлы понятий, состоящие из атомарных понятий и соответствующих атрибутов, таких как увлажнение лица, увлажнение лица и т. д. Составные понятия должны установить гипонимические отношения с соответствующими понятиями основного слова.
2.2 Четыре типа отношений в графе
синонимия/гипонимия: семантическая синонимия/гипотетическая взаимосвязь, например лицевая гидратация-син-фациальная гидратация и т. д. Определенная система таксономии также является своего рода отношением верхнего и нижнего уровня, поэтому она объединена в синоним / отношение верхнего и нижнего уровня.
отношение атрибутов концепта: это типичная связь CPV (концепция-свойство-значение), которая описывает и определяет понятия из различных измерений атрибутов, таких как горячий горшок-вкус-не острый, горячий горшок-спецификация-один человек и т. д. Примеры следующие:
Существует два типа отношений концептуальных атрибутов.
Предопределенные атрибуты концепта: В настоящее время мы предопределяем типичные атрибуты концепта следующим образом:
Атрибуты открытых понятий: в дополнение к общедоступным атрибутам понятий, определенным нами, мы также извлекаем некоторые специфические слова-атрибуты из текста и дополняем некоторые специфические слова-атрибуты. Например, поза, тема, комфорт, сарафанное радио и т. д.
Отношения наследования концепции: Этот тип отношений в основном устанавливает связь между концепцией поиска пользователя и концепцией предприятия Meituan, например, «Выстукивание источника» — «Место» — «Ботанический сад», «Декомпрессия» — «Проект» — «Бокс» и т. д.
Взаимосвязь концептуальных обязательств принимает «событие» в качестве ядра и определяет класс концепций предложения, которые могут удовлетворить потребности пользователя, такие как «место», «предмет», «толпа», «время» и «эффект». Взяв в качестве примера событие «отбеливание», «отбеливание» как спрос пользователя может быть удовлетворено с помощью различных концепций предложения, таких как салоны красоты, иглы для водяного освещения и т. д. В настоящее время определены несколько типов отношений наследования, как показано на следующем рисунке:
Взаимосвязь POI/SPU-концепции: POI — это экземпляр на сцене Meituan, а отношение «экземпляр-концепция» — это последняя остановка в графе знаний, которая часто является местом, где может проявиться коммерческая ценность графа знаний. В поиске, рекомендациях и других бизнес-сценариях конечной целью является возможность отображать POI, которые соответствуют потребностям пользователя, поэтому установление взаимосвязи POI/SPU-концепция является важной частью концептуальной карты здравого смысла всей сцены Meituan. и это тоже ценные данные.
3. Построение концептуальной карты здравого смысла
Общая структура построения карты показана на следующем рисунке:
3.1 Разработка концепции
Различные отношения карты понятий здравого смысла строятся вокруг понятий, и изучение этих понятий является первым шагом в построении карты понятий здравого смысла. В соответствии с двумя типами атомарной концепции и составной концепции для добычи используются соответствующие методы.
3.1.1 Атомный концептуальный майнинг
Кандидаты на атомарные концепции поступают из наименьшего сегмента после сегментации слов, таких как запрос, пользовательский контент (пользовательский контент) и список групп Критерии для оценки атомарных концепций должны соответствовать требованиям трех характеристик: популярность, значимость и целостность.
- Популярность, концептом должно быть слово с высокой популярностью в определенном корпусе или в каком-то корпусе.Это свойство в основном измеряется признаком частотного класса.Например, объем поиска по слову "убийство настольной книги" очень низкий, а частота в количество пользовательского контента также очень низкое, что соответствует требованиям популярности.
- Значительный, понятие должно быть значимым словом, которое в основном измеряется семантическими характеристиками, такими как «Амао» и «Агоу», обычно представляют собой простое имя без других практических значений.
- честность, понятие должно быть полным словом, и эта функция в основном измеряется долей независимого поиска (слово как объем поиска запроса / общий объем поиска запроса, содержащего слово), например, «дети» - неправильное слово кандидат на сегментацию, частота выше в пользовательском контенте, но доля независимого поиска низкая.
Основываясь на приведенных выше характеристиках атомарной концепции, модель классификации XGBoost обучается, чтобы судить о том, является ли атомарная концепция разумной, путем объединения ручной аннотации и обучающих данных, автоматически созданных по правилам.
3.1.2 Разработка сложных концепций
Кандидаты на составные понятия возникают из комбинации атомарных понятий, и оценка составных понятий более сложна, чем оценка атомарных понятий, из-за используемой комбинации. Составное понятие требует определенной степени познания в Meituan, обеспечивая при этом полную семантику. В соответствии с типом проблемы принимается модельная структура Wide & Deep, глубокая сторона отвечает за семантическое суждение, а широкая сторона импортирует информацию на сайт.
Структура модели имеет следующие две характеристики, по которым можно более точно судить о рациональности составных понятий:
- Широкая и глубокая структура модели: объединение дискретных функций с глубокой моделью, чтобы судить о том, разумна ли составная концепция.
- Особенности встраивания графиков: Введите связанную информацию между фразовыми словосочетаниями, например, «еда» может сочетаться с «толпой», «методом приготовления», «качеством» и т. д.
3.2 Анализ концептуальных отношений подчиненности
После овладения концептом также необходимо понять, что такое концепт, с одной стороны, он понимается через верхние и нижние отношения в искусственно заданной системе знаний Таксономии, а с другой стороны, понимается через верхние и низшие отношения между понятиями.
3.2.1 Концепция – верхняя и нижняя связь между таксономией
Отношение «верхний-нижний» между понятиями и таксономией заключается в том, чтобы понять, что такое понятие, с помощью искусственно определенной системы знаний.Поскольку тип таксономии является искусственно определенным типом, эта проблема может быть преобразована в проблему классификации. В то же время концепт может иметь несколько типов в системе таксономии, например, «лаймовая рыба» является одновременно «животным» и категорией «ингредиентов», поэтому эта проблема в конечном итоге рассматривается как задача типизации сущностей. концепция и соответствующий контекст используются в качестве входных данных модели, а различные категории таксономии помещаются в одно и то же пространство для суждения Конкретная структура модели показана на следующем рисунке:
3.2.2 Понятие-надчин отношения между понятиями
Система знаний понимает, что такое понятие, через искусственно определенные типы, но искусственно определенные типы всегда ограничены.Если гипероним не находится в искусственно определенном типе, такое гиперонимическое отношение не может быть понято. Например, можно понять, что «западные музыкальные инструменты», «музыкальные инструменты» и «эрху» — все это «объекты» через отношения концепт-таксономия, но нет никакого способа получить отношение между «западными музыкальными инструментами» и «музыкальные инструменты», «эрху» и «музыкальные инструменты». Верхние и нижние отношения между ними. Исходя из вышеуказанных проблем, в настоящее время используются следующие два метода для разработки верхней и нижней связи между понятиями и понятиями:
Лексический подход, основанный на правилах: Он в основном решает верхние и нижние отношения между атомарными понятиями и составными понятиями и использует отношения-кандидаты для определения отношений лексического включения (например, западные музыкальные инструменты - музыкальные инструменты).
Контекстный подход: лексические правила могут решить суждение о парах отношений верхнего и нижнего уровня, которые имеют отношение включения в лексике. Для пары верхних и нижних отношений, не имеющей отношения лексического включения, например, «эрху-инструмент», во-первых, необходимо найти отношение верхнее-нижнее, извлечь кандидаты на отношения, такие как «эрху-инструмент», а затем оцените соотношение между верхним и нижним. Эрху-музыкальный инструмент» — это разумная пара отношений между верхним и нижним. Учитывая, что при интерпретации предмета будет вводиться тип предмета, например, при толковании понятия «эрху» упоминается, что «эрху — традиционный музыкальный инструмент». Пара кандидатов на взаимосвязь, такая как «эрху-инструмент», может быть извлечена, и в то же время может быть реализовано суждение о том, является ли пара кандидатов на взаимосвязь приемлемой. Здесь анализ подчиненных отношений разделен на две части: извлечение описания отношений-кандидатов и классификация подчиненных отношений:
- Извлечение описания отношения-кандидата: два концепта, принадлежащие одному и тому же типу таксономии, являются необходимым условием для того, чтобы пара концептов-кандидатов была парой отношений верхнего и нижнего уровня. Например, «эрху» и «музыкальный инструмент» принадлежат «предмету», определенному в системе таксономии. В соответствии с верхним и нижним отношениями концепт-таксономия. В результате для исследования понятия подчиненного отношения найдите концепт-кандидат, который согласуется с его типом таксономии, чтобы сформировать пару отношений-кандидатов, а затем отсейте кандидата. предложение описания отношений для классификации подчиненных отношений в тексте в соответствии с совпадением пары отношений-кандидатов.
- Верхняя и нижняя классификация отношений: После получения предложения описания отношения-кандидата необходимо судить о том, разумно ли верхнее и нижнее отношение в сочетании с контекстом.Здесь начальная позиция и конечная позиция двух понятий в тексте отмечены специальными маркерами, а два понятия начинаются с текста. Векторы в метке начального положения соединяются вместе как представление отношений между ними. В соответствии с этим представлением классифицируются верхние и нижние отношения. Вектор представляет результат, выводимый BERT Подробная структура модели показана на следующем рисунке:
При построении обучающих данных, поскольку предложения, выраженные верхними и нижними отношениями, очень редки, большое количество одновременно встречающихся предложений не ясно указывает, имеет ли пара отношений-кандидатов верхнее и нижнее отношение.Это невозможно, поэтому модель обучается непосредственно с использованием аннотированного вручную обучающего набора. Поскольку количество ручных аннотаций относительно ограничено, величина которых находится на тысячном уровне, здесь используется полууправляемый алгоритм обучения Google UDA (Unsupervised Data Augmentation) для улучшения эффекта модели, и окончательная точность может достигать 90. %+ Подробные показатели представлены в таблице 1:
3.3 Интеллектуальный анализ отношений атрибутов понятия
Атрибуты, содержащиеся в концепте, можно разделить на общедоступные атрибуты и открытые атрибуты в зависимости от того, являются ли атрибуты общими или нет. Общие атрибуты — это определяемые вручную атрибуты, которые содержит большинство понятий, такие как цена, стиль, качество и т. д. Открытые атрибуты относятся к атрибутам, которые содержатся только в определенных понятиях, например, «пересадка волос», «ресницы» и «убийство сценария» содержат открытые атрибуты «плотность», «кривизна» и «логика» соответственно. Открытых свойств гораздо больше, чем общедоступных. Для этих двух взаимосвязей атрибутов мы используем следующие два метода.
3.3.1 Анализ взаимосвязей общих атрибутов на основе составных понятий
Из-за универсальности общедоступных атрибутов значение в общедоступных отношениях атрибутов (CPV) обычно объединяется с концептом в виде составного концепта, такого как дешевые торговые центры, японская кухня и красное кино HD. Мы трансформируем задачи анализа отношений в анализ зависимостей и мелкие задачи NER (см.Исследование и применение технологии NER в поиске Meituan》), анализ зависимостей идентифицирует основные объекты и модификаторы в составных концепциях, а детальный NER определяет значения конкретных атрибутов. Например, учитывая составное понятие «Красный фильм HD», анализ зависимостей идентифицирует основное понятие «Фильм», «Красный» и «HD» являются атрибутами «Фильма», а детальный NER предсказывает, что значения атрибута являются «Стиль»)», «Оценка качества (HD)».
Анализ зависимостей и детальный NER содержат информацию, которую можно использовать друг для друга, например, типы сущностей «выпускная кукла», «время» и «продукт», а «кукла» является основным словом информации о зависимости, которая может взаимное использование.Облегчает обучение, так что две задачи изучаются совместно. Однако, поскольку степень корреляции между двумя задачами не ясна и существует много шума, Meta-LSTM используется для оптимизации совместного обучения функционального уровня до совместного обучения функционального уровня, превращая жесткое совместное использование в динамическое. совместное использование, уменьшая два эффекта шума между задачами.
Общая архитектура модели выглядит следующим образом:
В настоящее время общая точность взаимосвязей модификации концепции составляет около 85%.
3.3.2 Выяснение определенных отношений атрибутов на основе открытых слов атрибутов
Анализ открытых слов-атрибутов и значений атрибутов
Отношения открытых атрибутов должны добывать уникальные атрибуты и значения атрибутов различных понятий, и его сложность заключается в идентификации открытых атрибутов и открытых значений атрибутов. По данным наблюдений установлено, что некоторые общие значения атрибутов (такие как: хороший, плохой, высокий, низкий, больше, меньше) обычно появляются в сочетании с атрибутами (такими как: хорошая окружающая среда, высокая температура, большой поток людей ). Поэтому мы применяем метод начальной загрузки на основе шаблонов для автоматического извлечения атрибутов и значений атрибутов из отзывов пользователей Процесс майнинга выглядит следующим образом:
После анализа открытых слов-атрибутов и значений атрибутов анализ отношений открытых атрибутов делится на анализ двух кортежей «понятие-атрибут» и анализ троек «понятие-атрибут-значение атрибута».
Добыча концептуальных атрибутов
Анализ двух кортежей «концепт-атрибут» заключается в том, чтобы определить, содержит ли концепт «Концепт» атрибут «Свойство». Этапы майнинга следующие:
- В соответствии с характеристиками совпадения понятий и атрибутов в пользовательском контенте, вариантный алгоритм TFIDF используется для поиска типичных атрибутов, соответствующих понятиям в качестве кандидатов.
- Атрибуты концепции-кандидата строятся как простые предложения с естественным выражением, и языковая модель степени беглости используется для оценки степени беглости предложения, а атрибуты концепции с высокой степенью беглости зарезервированы.
Определение значения понятия-атрибута-атрибута
После получения кортежей «концепт-атрибут» шаги по добыче соответствующих значений атрибутов следующие:
- Добыча семян. Семя майнинга увеличивается втрое из пользовательского контента на основе особенностей совпадения и языковых моделей.
- Разработка шаблонов. Используйте исходные тройки для создания подходящих шаблонов из пользовательского контента (например, «Подходящая температура воды является важным критерием при выборе бассейна».).
- генерация отношений. Шаблон заполняется начальными тройками, а языковая модель в маске обучается для создания отношений.
В настоящее время степень точности отношения атрибутов концепции в открытом домене составляет около 80%.
3.4 Разработка отношений преемственности концепций
Отношение преемственности концепций заключается в установлении связи между концепцией поиска пользователя и концепцией преемственности Meituan. Например, когда пользователь ищет «прогулка», его реальное намерение состоит в том, чтобы найти «места, подходящие для прогулки», поэтому платформа использует такие понятия, как «загородный парк» и «ботанический сад». Интеллектуальный анализ взаимосвязей должен выполняться от 0 до 1, поэтому вся концепция интеллектуального анализа отношений предусматривает различные алгоритмы интеллектуального анализа данных в соответствии с фокусом интеллектуального анализа на разных этапах, которые можно разделить на три этапа: ① первоначальный анализ исходных данных; термин глубина дискриминантной модели добычи; ③Завершить отношения в более поздний период. Подробности следующие.
3.4.1 Исходные данные майнинга на основе признаков совместного появления
Чтобы решить проблему холодного запуска в задачах извлечения отношений, в отрасли обычно применяется метод начальной загрузки, который автоматически расширяет данные из корпуса путем ручной установки небольшого количества семян и шаблонов. Однако метод Bootstrapping не только ограничен качеством шаблона, но и имеет естественные дефекты сцены Meituan. Основным источником корпуса Meituan являются отзывы пользователей, а выражения отзывов пользователей очень разговорные и разнообразные, что затрудняет разработку универсального и эффективного шаблона. Поэтому мы отказались от метода, основанного на шаблонах, и построили троичную контрастную обучающую сеть, основанную на функциях совместного появления и функциях категорий между сущностями, чтобы автоматически извлекать информацию о потенциальной корреляции между отношениями сущностей из неструктурированного текста.
В частности, мы заметили, что распределение сущностей в отзывах пользователей по разным категориям продавцов сильно различается. Например, пользовательский контент в категории «еда» часто включает «ужин», «заказ еды» и «ресторан»; пользовательский контент в категории «фитнес» часто включает «похудение», «индивидуальное обучение», «тренажерный зал» и «украшение». «Лобби» и другие общие объекты будут отображаться в каждой категории. Поэтому мы строим троичную контрастную обучающую сеть, чтобы отзывы пользователей в одной категории были близки, а отзывы пользователей в разных категориях — далеко. Подобно предварительно обученным векторным системам слов, таким как Word2Vec, векторный слой слов, полученный с помощью этой стратегии сравнительного обучения, естественным образом содержит богатую реляционную информацию. В ходе прогнозирования для любого пользовательского поискового концепта может быть получен пакет качественных начальных данных путем вычисления семантического сходства между ним и всеми унаследованными концептами, дополненного статистическими характеристиками поискового бизнеса.
3.4.2 Обучение глубокой модели на основе начальных данных
Предварительно обученные языковые модели значительно продвинулись в области НЛП за последние два года.Точная настройка последующих задач на основе больших предварительно обученных моделей является очень популярной практикой в области НЛП. Поэтому на среднем этапе анализа отношений мы принимаем дискриминантную модель отношений, основанную на BERT (см.Исследование и практика Meituan BERT》), используя большой объем знаний о самом языке, изученном во время предварительного обучения BERT, чтобы помочь в задаче извлечения отношений.
Структура модели показана на рисунке ниже. Сначала получаются пары сущностей-кандидатов в соответствии с признаками совместного появления между сущностями и вызываются комментарии пользователей, содержащие пары сущностей-кандидатов; затем, следуя методу маркировки сущностей, описанному в документе MTB, в начальные и конечные позиции вставляются специальные символы. два объекта. , после моделирования BERT специальные символы начальных позиций двух объектов соединяются вместе как представление отношения; наконец, представление отношения вводится в слой Softmax, чтобы определить, существует ли отношение между объектами .
3.4.3 Завершение отношения на основе существующей структуры графа
На двух предыдущих этапах из неструктурированной текстовой информации был построен граф концептуальных отношений наследования. Однако из-за ограничений семантических моделей в текущем графике отсутствует большое количество троек. Чтобы еще больше обогатить концептуальную карту и дополнить недостающую информацию о взаимосвязях, мы используем алгоритм TransE в предсказании ссылок карты знаний и технологию графовой нейронной сети для завершения существующей концептуальной карты.
Чтобы в полной мере использовать структурную информацию известных графов, мы используем нейронную сеть внимания реляционного графа (RGAT, сеть внимания реляционного графа) для моделирования структурной информации графа. RGAT использует механизм реляционного внимания, чтобы преодолеть дефект, заключающийся в том, что традиционные GCN и GAT не могут моделировать типы границ, и больше подходит для моделирования гетерогенных сетей, таких как концептуальные карты. После использования RGAT для получения плотных вложений сущностей мы используем TransE в качестве функции потерь. TransE рассматривает r в тройке (h,r,t) как вектор переноса из h в t и соглашается, что h+r≈t. Этот метод широко используется в задачах завершения графа знаний, демонстрируя высокую надежность и масштабируемость.
Конкретные детали показаны на рисунке ниже.Функции каждого уровня узлов в RGAT взвешиваются и объединяются по среднему значению функций соседнего узла и среднему значению функций соседних ребер.Через механизм реляционного внимания, разные узлы и ребра имеют разные весовые коэффициенты. После получения признаков узлов и ребер последнего слоя мы используем TransE в качестве цели обучения, чтобы минимизировать ||h+r=t|| для каждой пары троек (h, r, t) в обучающем наборе. Во время прогнозирования для каждого головного объекта и каждой взаимосвязи все узлы в графе используются в качестве потенциальных хвостовых объектов для расчета расстояния от них для получения окончательного хвостового объекта.
В настоящее время общий уровень точности концептуальных отношений составляет около 90%.
3.5 Построение взаимосвязи POI/SPU-концепция
Чтобы установить связь между концепциями графа и экземплярами Meituan, будет использоваться информация из нескольких измерений, таких как имена POI/SPU, категории и отзывы пользователей. Трудность установления ассоциаций заключается в том, как получить информацию, относящуюся к понятиям графа, из разнообразной информации. Поэтому мы вспоминаем все предложения, связанные с семантикой понятий, в экземпляре через синонимы, а затем используем дискриминационную модель, чтобы судить о степени связи между понятиями и предложениями. Конкретный процесс выглядит следующим образом:
- кластеризация синонимов. Для обозначения концепта получают различные представления концепта по синонимическим данным графа.
- генерация предложения-кандидата. На основе результатов кластеризации синонимов предложения-кандидаты извлекаются из нескольких источников, таких как имя продавца, название группового заказа и отзывы пользователей.
- дискриминантная модель. Используйте дискриминантную модель связи концепт-текст (как показано на рисунке ниже), чтобы определить, совпадают ли концепты и предложения.
- Результат маркировки. Отрегулируйте порог, чтобы получить окончательный результат дискриминации.
4. Практика применения
4.1 К построению комплексной карты слов категорий
Meituan to Comprehensive Business охватывает широкий спектр областей знаний, включая отношения родителей и детей, образование, медицинскую красоту, отдых и развлечения и т. д. В то же время каждое поле содержит больше небольших подполей, поэтому построение карт знаний в разных областях может help Сделайте хорошую работу по поиску, отзыву, отбору, рекомендациям и другим услугам.
В дополнение к концептуальным данным здравого смысла, концептуальная карта здравого смысла также включает в себя данные сцены Meituan и возможности базового алгоритма, поэтому возможности карты здравого смысла можно использовать для построения картографических данных исчерпывающих слов. .
С помощью карт здравого смысла восполняется недостаток данных слов категории, и создается разумная карта слов категории, чтобы помочь улучшить поисковый отзыв за счет перезаписи поиска, маркировки POI и т. Д. В настоящее время в сфере образования шкала графа расширилась с 1000+ узлов в начале до 2000+, а синонимы были расширены с 1000 уровней до 20000+, что дало хорошие результаты.
Процесс построения карты слов категорий показан на следующем рисунке:
4.2 Обзор руководства по поиску
Рекомендация SUG по поиску комментариев, направляя познание пользователей, помогает сократить время, затрачиваемое пользователями на выполнение поиска, и повысить эффективность поиска. Таким образом, рекомендация SUG должна быть сосредоточена на двух целях: 1) помочь обогатить познание пользователей, используя POI и поиск по категориям отзывов, чтобы улучшить познание естественного текстового поиска; 2) уточнить потребности пользователей в поиске, когда пользователи ищут некоторые при сравнении общие слова категории, это помогает уточнить потребности пользователей в поиске.
В карте понятий здравого смысла устанавливаются богатые концепции и отношения между соответствующими атрибутами и их значениями атрибутов.Благодаря относительно общему запросу можно создать соответствующий уточненный запрос. Например, торты могут производить клубничные торты и чизкейки по атрибуту вкуса, а 6-дюймовые торты, карманные торты и т. д. — по атрибуту спецификаций.
Пример вывода ключевого слова поиска Query показан на следующем рисунке:
4.3 Отметить содержание комплексной медицинской красоты
При отображении контента о медицинской красоте пользователи обычно интересуются конкретным контентом услуги медицинской красоты, поэтому в форме продукта будут предоставлены несколько различных меток услуг, чтобы помочь пользователям отфильтровать точный контент медицинской красоты и точно удовлетворить потребности пользователей. Однако, когда метка связана с контентом, связанным с медицинской косметикой, возникает много ошибок ассоциации, и пользователи часто видят контент, который не соответствует их потребностям после проверки. Повышение точности маркировки может помочь пользователям больше сосредоточиться на своих потребностях.
С помощью возможности маркировки концепции-POI на графике и отношения маркировки концепции-UGC точность содержания метки повышается. Маркировка с помощью графиков может значительно повысить точность и скорость отзыва.
- Точность: Благодаря алгоритму маркировки концептуального содержания, по сравнению с сопоставлением ключевых слов, уровень точности увеличился с 51% до 91%.
- отзывать: Благодаря добыче концептуальных синонимов скорость отзыва увеличивается с 77% до 91%.
V. Резюме и перспективы
Мы дали подробное введение в построение концептуальных карт здравого смысла и их использование в сценариях Meituan. Во всю карту понятий здравого смысла включены три типа узлов и четыре типа отношений в соответствии с потребностями бизнеса, и соответственно представлены алгоритмы анализа понятий и различные типы алгоритмов анализа отношений.
В настоящее время наша карта понятий здравого смысла содержит более 2 миллионов понятий и более 3 миллионов отношений между понятиями, включая отношения между подчиненными, синонимами, атрибутами и последовательностью.Отношения между POI-понятиями не включены. В настоящее время общий уровень точности отношений составляет около 90%, и алгоритм все еще оптимизируется для повышения уровня точности при расширении отношений. В будущем наша концептуальная карта здравого смысла будет улучшаться, и мы надеемся, что она будет точной и полной.
использованная литература
- [1] Onoe Y, Durrett G. Interpretable entity representations through large-scale typing[J]. arXiv preprint arXiv:2005.00147, 2020.
- [2] Bosselut A, Rashkin H, Sap M, et al. Comet: Commonsense transformers for automatic knowledge graph construction[J]. arXiv preprint arXiv:1906.05317, 2019.
- [3] Soares L B, FitzGerald N, Ling J, et al. Matching the blanks: Distributional similarity for relation learning[J]. arXiv preprint arXiv:1906.03158, 2019.
- [4] Peng H, Gao T, Han X, et al. Learning from context or names? an empirical study on neural relation extraction[J]. arXiv preprint arXiv:2010.01923, 2020.
- [5] Jiang, Zhengbao, et al. "How can we know what language models know?." Transactions of the Association for Computational Linguistics 8 (2020): 423-438.
- [6] Li X L, Liang P. Prefix-Tuning: Optimizing Continuous Prompts for Generation[J]. arXiv preprint arXiv:2101.00190, 2021.
- [7] Malaviya, Chaitanya, et al. "Commonsense knowledge base completion with structural and semantic context." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 34. No. 03. 2020.
- [8] Ли Ханью, Цянь Ли, Чжоу Пэнфэй, «Анализ настроений и анализ текстов обзоров товаров», Информатика, 35.1 (2017): 51–55.
- [9] Yan Bo, Zhang Ye, Su Hongyi и др. Метод кластеризации атрибутов продукта на основе отзывов пользователей.
- [10] Wang, Chengyu, Xiaofeng He, and Aoying Zhou. "Open relation extraction for chinese noun phrases." IEEE Transactions on Knowledge and Data Engineering (2019).
- [11] Li, Feng-Lin, et al. "AliMeKG: Domain Knowledge Graph Construction and Application in E-commerce." Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2020.
- [12] Yang, Yaosheng, et al. "Distantly supervised ner with partial annotation learning and reinforcement learning." Proceedings of the 27th International Conference on Computational Linguistics. 2018.
- [13] Luo X, Liu L, Yang Y, et al. AliCoCo: Alibaba e-commerce cognitive concept net[C]//Proceedings of the 2020 ACM SIGMOD International Conference on Management of Data. 2020: 313-327.
- [14] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
- [15] Cheng H T, Koc L, Harmsen J, et al. Wide & deep learning for recommender systems[C]//Proceedings of the 1st workshop on deep learning for recommender systems. 2016: 7-10.
- [16] Liu J, Shang J, Wang C, et al. Mining quality phrases from massive text corpora[C]//Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data. 2015: 1729-1744.
- [17] Shen J, Wu Z, Lei D, et al. Hiexpan: Task-guided taxonomy construction by hierarchical tree expansion[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018: 2180-2189.
- [18] Huang J, Xie Y, Meng Y, et al. Corel: Seed-guided topical taxonomy construction by concept learning and relation transferring[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 1928-1936.
- [19] Liu B, Guo W, Niu D, et al. A user-centered concept mining system for query and document understanding at tencent[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019: 1831-1841.
- [20] Choi E, Levy O, Choi Y, et al. Ultra-fine entity typing[J]. arXiv preprint arXiv:1807.04905, 2018.
- [21] Xie Q, Dai Z, Hovy E, et al. Unsupervised data augmentation for consistency training[J]. arXiv preprint arXiv:1904.12848, 2019.
- [22] Mao X, Wang W, Xu H, et al. Relational Reflection Entity Alignment[C]//Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2020: 1095-1104.
- [23] Chen J, Qiu X, Liu P, et al. Meta multi-task learning for sequence modeling[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2018, 32(1).
об авторе
Цзун Юй, Цзюньцзе, Хуйминь, Фубао, Сюй Цзюнь, Се Жуй, Увэй и т. д. — все они из отдела поиска и НЛП Meituan — Центра НЛП.
Предложения о работе
Отдел поиска и НЛП Meituan/Центр НЛП является основной группой, отвечающей за исследования и разработку технологии искусственного интеллекта Meituan.Его миссия состоит в том, чтобы создать базовую технологию обработки естественного языка и сервисные возможности мирового уровня, опираясь на НЛП (обработка естественного языка). , Deep Learning (глубокое обучение), Knowledge Graph (Knowledge Graph) и другие технологии для обработки массивных текстовых данных Meituan и предоставления услуг интеллектуального семантического понимания текста для различных предприятий Meituan.
Центр НЛП уже давно набирает специалистов по алгоритмам обработки естественного языка/алгоритмов машинного обучения Заинтересованные студенты могут отправить свои резюме наwangzongyu02@meituan.com.
| Эта статья подготовлена технической командой Meituan, авторские права принадлежат Meituan. Добро пожаловать на перепечатку или использование содержимого этой статьи в некоммерческих целях, таких как обмен и общение, пожалуйста, укажите «Содержимое воспроизводится технической командой Meituan». Эта статья не может быть воспроизведена или использована в коммерческих целях без разрешения. Для любой коммерческой деятельности, пожалуйста, отправьте электронное письмо по адресуtech@meituan.comПодать заявку на авторизацию.
Прочтите другие подборки технических статей от технической команды Meituan
внешний интерфейс | алгоритм | задняя часть | данные | Безопасность | Эксплуатация и техническое обслуживание | iOS | Android | контрольная работа
|Ответьте на ключевые слова, такие как [акции 2020 г.], [акции 2019 г.], [акции 2018 г.], [акции 2017 г.] в диалоговом окне строки меню общедоступной учетной записи, и вы сможете просмотреть коллекцию технических статей технической группы Meituan в течение годы.
| Эта статья подготовлена технической командой Meituan, авторские права принадлежат Meituan. Добро пожаловать на перепечатку или использование содержимого этой статьи в некоммерческих целях, таких как обмен и общение, пожалуйста, укажите «Содержимое воспроизводится технической командой Meituan». Эта статья не может быть воспроизведена или использована в коммерческих целях без разрешения. Для любой коммерческой деятельности, пожалуйста, отправьте электронное письмо по адресуtech@meituan.comПодать заявку на авторизацию.