предисловие
"Прости. Я не могу этого сделать, Дэйв", - это фраза, произнесенная роботом HAL 9000 в классическом научно-фантастическом фильме "2001: Космическая одиссея", в котором человеческое видение идеального искусственного интеллекта сжато. . Чтобы машина научилась произносить такое простое предложение, требуется, чтобы машина обладала эмоциональным познанием, самосознанием и пониманием мира, чтобы помочь машине обрабатывать различную информацию, которую она получает, понимать значение информации и генерировать собственные решения. Основа этих когнитивных модулей требует от машин способности учиться, организовывать и рассуждать о знаниях, и графы знаний рождаются для достижения этих целей.
В мае этого года Центр НЛП Meituan приступил к созданию крупномасштабного графа знаний о ресторанном бизнесе и развлечениях — Meituan Brain, который будет полностью обрабатывать данные, связанные с различными сценариями, и использовать технологию ИИ, чтобы позволить машинам «читать» комментарии пользователей. данные и понимать мнения пользователей о блюдах и ценах, услугах, окружающей среде и других предпочтениях, а также исследовать ассоциации знаний между людьми, магазинами, товарами и этикетками, чтобы создать «мозг знаний». Meituan Brain изначально был реализован во многих сферах деятельности компании, таких как интеллектуальные рекомендации по поиску, интеллектуальные финансы и интеллектуальные торговые операции.
Ранее, "Meituan Brain: метод моделирования графа знаний и его применениеСтатья знакомит с классификацией графов знаний и их конкретными приложениями, особенно с тем, как используются графы знаний здравого смысла и графы энциклопедических знаний. После этого мы получили много отзывов, надеясь узнать больше о деталях «Meituan Brain». Чтобы дать каждому более систематическое представление о Meituan Brain, Центр НЛП в ближайшее время поделится серией технических статей, включая технологии, связанные с графами знаний, возможности алгоритмов, лежащих в основе Meituan Brain, создание сотен миллиардов графических движков и различных бизнес-эффектов сценариев приложений и т. д. Эта статья является первой статьей в серии Meituan Brain.
На пути к когнитивному интеллекту
Массивные данные и крупномасштабные распределенные вычислительные мощности породили третий (с 1993 г. по настоящее время) кульминационный момент искусственного интеллекта, представленный глубоким обучением. Огромные данные, генерируемые Web 2.0, предоставляют большой объем размеченных данных для технологий машинного обучения и глубокого обучения, а развитие графических процессоров и облачных вычислений обеспечивает необходимую вычислительную мощность для сложных числовых расчетов в области глубокого обучения. Технология глубокого обучения совершила прорыв в области речи и изображений, а это означает, что достижения технологии обучения позволили машинам впервые достичь уровня человека или даже превзойти его по способностям восприятия, а искусственный интеллект вступил в стадию перцептивный интеллект.
Однако по мере того, как глубокое обучение стало широко использоваться, его ограничения стали более очевидными.
- отсутствие интерпретируемости: особенность «черного ящика» сквозного обучения нейронных сетей делает многие модели необъяснимыми, в результате чего большое количество людей должны участвовать в принятии решений.В этих сценариях приложений нельзя полностью доверять машинным результатам и необходимо следует использовать с осторожностью, например, для диагностики медицинских заболеваний, финансовых роботов-консультантов и т. д. Эти сценарии отличаются низкой отказоустойчивостью и высоким риском, и для поддержки результатов моделирования необходимо отображать доказательства, чтобы помочь людям в принятии решений.
- Здравый смысл отсутствует: повседневная деятельность людей требует много поддержки фоновых знаний здравого смысла, машинного обучения на основе данных и глубокого обучения, они изучают характеристики и представления выборочного пространства, и много фонового здравого смысла является неявным и расплывчатым, его трудно понять. находиться в пространстве выборки, отраженном в данных. Например, когда идет дождь, вам нужно использовать зонт, но дождь идет не всегда, когда вы используете зонт. Логика корреляции, стоящая за этими характерными данными, скрыта в нашем культурном контексте.
- отсутствие семантического понимания. Модель не понимает семантических знаний в данных, ей не хватает способностей к рассуждениям и абстракциям, а также плохая способность к обобщению для невидимых моделей данных.
- Зависит от большого количества выборочных данных: для машинного обучения и глубокого обучения требуется большой объем помеченных выборочных данных для обучения модели, а стоимость маркировки данных высока, и во многих сценариях отсутствуют помеченные данные для холодного запуска.
С точки зрения общего развития искусственного интеллекта вышеуказанные ограничения также являются проблемами, которые необходимо решить в процессе перехода машин от перцептивного интеллекта к когнитивному. Когнитивный интеллект требует, чтобы машины обладали способностью рассуждать и абстрагироваться, а модели могли использовать предварительные знания для обобщения знаний, которые люди могут понять, а модели могут повторно использовать. В целом вычислительная мощность машин должна перейти от вычислений данных к вычислениям знаний, и графы знаний необходимы. Графы знаний могут упорядочивать знания в реальном мире и описывать объективные понятия, сущности и отношения. Такая вычислительная модель, основанная на символической семантике, с одной стороны, может способствовать эффективному общению между людьми и машинами, а с другой стороны, она может предоставлять предварительные знания для моделей глубокого обучения и преобразовывать результаты машинного обучения в повторно используемые символические знания для накапливать.
Что такое знание? Знания — это структурированная информация. Люди извлекают эффективную информацию из данных, извлекают полезные знания из информации и организуют информацию в структуру, чтобы иметь знания. Инженерия знаний, как одна из основных областей исследований, представляющих развитие искусственного интеллекта, представляет собой процесс, в котором машины имитируют людей для обработки информации, накопления и применения знаний. Граф знаний является репрезентативным направлением исследований в области инженерии знаний на протяжении десятилетий. В первые дни, когда данные все еще были редким ресурсом, в центре внимания исследований графов знаний были семантические модели и логические рассуждения Моделирование знаний было в основном нисходящим шаблоном проектирования, а семантическая модель была очень сложной. Типичной работой является программа доказательства теорем «Теоретик логики», объявленная на Дартмутской конференции, учредительном собрании искусственного интеллекта в 1956 году, которая может доказать некоторые теоремы из «Принципов математики». С появлением беспрецедентных данных, приносимых Интернетом, фокус технологии графов знаний сместился со строгой семантической модели на построение массивных экземпляров фактов.Знания в графе организованы в виде троек для представляют объективный мир Сущности и отношения между сущностями. Например, на странице записи знаменитости в Википедии карточка Infobox будет описывать информацию о национальности знаменитости, и ее структура представляет собой триплет, такой как .
Рисунок 2 Схема карты знаний интернет-компанийВ настоящее время графы знаний широко используются в системах ответов на вопросы, поиске, рекомендациях и других системах, а также в таких сферах бизнеса, как финансы, медицинское обслуживание и электронная коммерция. В 2010 году Microsoft начала создавать граф знаний Satori для улучшения поиска Bing; Google предложила концепцию Knowledge Graph в 2012 году, используя граф для улучшения собственной поисковой системы; в 2013 году Facebook выпустила Open Graph для интеллектуального поиска в социальных сетях; в 2015 году Alibaba начала Постройте собственный граф знаний в сфере электронной коммерции, в 2016 году Amazon также начал строить граф знаний.
Рис. 3. Мозг MeituanВ мае 2018 года Центр НЛП Meituan Dianping начал создавать крупномасштабную карту знаний в области общественного питания и развлечений — Meituan Brain. Являясь крупнейшей в Китае онлайн-платформой жизнеобеспечения, Meituan Dianping охватывает множество жизненных сценариев в сфере общественного питания и развлечений, объединяя сотни миллионов пользователей и десятки миллионов продавцов, накапливая ценные бизнес-данные и обширные знания о повседневной жизни. Граф знаний Meituan Brain, который в настоящее время разрабатывается, содержит десятки концепций, миллиарды сущностей и десятки миллиардов троек.Ожидается, что в следующем году число ассоциаций знаний в Meituan Brain возрастет до сотен миллиардов.
Meituan Brain будет полностью анализировать данные, связанные с каждой сценой, использовать технологию искусственного интеллекта, чтобы позволить машинам «читать» комментарии пользователей и данные о поведении, понимать предпочтения пользователей в отношении блюд, цен, услуг и окружающей среды, а также строить отношения между людьми. магазины, продукты и сцены, ассоциации знаний, формируя, таким образом, «мозг знаний». По сравнению с «черным ящиком» глубокого обучения, графы знаний легко интерпретируются и имеют широкую применимость в нескольких кросс-сценарных бизнесах Meituan.В настоящее время графы знаний предварительно проверены в поиске, финансах и других сценариях эффективности. В последние годы как технология глубокого обучения, так и технология графа знаний значительно развились, и существует тенденция взаимной интеграции.В процессе накопления знаний о мозге в Meituan мы также будем использовать технологию глубокого обучения для извлечения знаний из данных. Тем самым расширяя возможности бизнеса, предоставляя интеллектуальные услуги на местном уровне и помогая всем «лучше питаться, лучше жить».
Сеть технологий графа знаний
Рис. 4 Технологическая цепочка сети знанийИсходные данные графов знаний поступают из нескольких измерений. Вообще говоря, структурированные данные просты в обработке и обладают высокой точностью.Собственный дизайн структуры данных также имеет определенное руководящее значение для построения моделей данных и является первым выбором для начального построения графа. Всемирно известные высококачественные крупномасштабные открытые базы знаний, такие как Wikidata, DBPedia и Yago, являются первым выбором для построения многоязычных графов знаний в общих областях OpenKG в Китае предоставляет файлы дампа или API для многих китайских баз знаний. В отрасли часто проектируют и строят графики на основе собственных массивных структурированных данных и используют распознавание сущностей, извлечение отношений и другие методы для обработки неструктурированных данных, чтобы добавить больше полезной информации.
Графы знаний обычно используют сущности в качестве узлов для формирования большой сети.Схема графа эквивалентна модели данных, которая описывает тип (тип), содержащийся в домене, и атрибуты (свойство), которые описывают сущность под типом Отношение — это ребро (Relation), а собственная информация сущности — это атрибут (Attribute). Кроме того, Schema также описывает их ограничения.
Meituan Brain создает карту знаний обо всех аспектах еды, питья и игр с пользователями.Начиная с реальных потребностей бизнеса, он абстрагирует модели данных поверх существующих таблиц данных с продавцами, товарами, пользователями и т. д. в качестве основных объектов и их основная информация в качестве атрибутов.Отношения с продуктами и пользователями являются краем, и информация в нескольких полях связана.В то же время он использует данные комментариев, данные Интернета и т. д. в сочетании с методами получения знаний, чтобы заполнить графическую информацию, тем самым предоставляя более разнообразные знания.
приобретение знаний
Приобретение знаний относится к извлечению соответствующих сущностей, атрибутов, отношений, событий и других знаний из данных из различных источников и структур. Из подразделения структуры данных его можно разделить на структурированные данные, полуструктурированные данные и простые текстовые данные. Структурированные данные относятся к двумерным данным, представленным и хранимым реляционными базами данных.Этот тип данных может быть непосредственно извлечен в граф знаний с помощью таких технологий, как слияние схем и выравнивание сущностей. Полуструктурированные данные в основном относятся к релевантным тегам, используемым для разделения семантических элементов, но нет строго определенных данных в виде баз данных, таких как табличные данные на веб-страницах, инфобокс в Википедии и так далее. Такие данные могут быть преобразованы в структурированные данные с помощью таких технологий, как поисковый робот и анализ веб-страниц. На самом деле структурированные и полуструктурированные данные относительно ограничены, и большой объем знаний часто содержится в тексте, что также согласуется с тем, как люди приобретают знания. В соответствии с получением знаний из простых текстовых данных он в основном включает такие технологии, как распознавание сущностей, классификация сущностей, извлечение отношений и связывание сущностей.
Являясь основной единицей графа знаний, извлечение сущностей из текста является ключевой технологией для получения знаний. Распознавание сущностей в тексте обычно может быть решено как задача маркировки последовательностей. В традиционных методах распознавания сущностей преобладают статистические модели, такие как HMM, CRF и т. д. С развитием глубокого обучения предпочтение отдается модели BiLSTM+CRF[1]. Эта модель позволяет избежать построения шаблона признаков, характерного для традиционной CRF. Лучшее использование семантическая информация до и после может значительно улучшить эффект распознавания. При построении подполя Meituan Dianping-Gourmet Map рекомендуемые блюда под каждым магазином (называемые магазинными блюдами) являются одним из важных объектов на карте. Пользовательская оценка блюд ресторана в комментариях вполне может отражать предпочтения пользователей. В соответствии с фактическими характеристиками блюд ресторана, используя метод получения знаний для извлечения объекта питания ресторана, содержания оценки пользователя и эмоций оценки еды ресторана из комментариев, очень важно дополнить информацию объекта , анализировать предпочтения пользователей и помогать магазину совершенствоваться.
Рисунок 5 Модель BiLSTM+CRFКлассификация сущностей предназначена для классификации извлеченных сущностей. При обнаружении нового объекта из текста назначение соответствующего типа объекту является основной целью концептуализации объекта. Например, контекстная функция объекта сравнивается с объектами других типов, и новый объект классифицируется как наиболее похожий тип. Кроме того, в случае несовершенной схемы кластеризация большого количества сущностей, а затем абстрагирование Типа, соответствующего каждому кластеру, является распространенным методом построения карты снизу вверх.Дополняя слой Типа, он также завершает сущность кстати.
Извлечение отношений заключается в автоматическом извлечении определенных семантических отношений между объектами из текста в дополнение к отсутствующим отношениям на графике. >. Извлечение отношения может быть получено путем определения шаблона правила, такого как сопоставление определенного шаблона предложения выражения, использование грамматических семантических признаков и т. д., но метод, основанный на правилах, требует много рабочей силы и содержит много неточностей. Метод на основе обучения Bootstrap использует небольшое количество начальных экземпляров или шаблонов для извлечения новых отношений, а затем использует новые результаты для создания большего количества шаблонов Таким образом, KnowItAll[2] и TextRunner[3] основаны на таких идеях; Метод Дистанционного Наблюдения [4] использовал существующую тройную информацию в качестве исходной для сопоставления информации, содержащей как субъект, так и объект в тексте, в качестве данных маркировки отношения. Эти два метода решают проблему трудоемкости, но точность еще нуждается в повышении. Недавний метод глубокого обучения основан на идее совместной модели с использованием сквозной модели нейронной сети для одновременной реализации распознавания сущностей и извлечения отношений [5][6], чтобы избежать кумулятивного эффекта ошибки, вызванные результатами раннего распознавания сущностей при извлечении отношений.
Проверка знаний
Проверка знаний проходит через весь процесс построения графа знаний. В начальном процессе разработки схемы необходимо строго определить свойство в соответствии с типом, связано ли свойство с информацией о свойствах или сущностью, а также с типом, к которому принадлежит сущность, и так далее. Если схема недостаточно стандартизирована, это приведет к тому, что ошибки будут переданы на уровень данных, и их будет трудно исправить. На уровне данных знания, полученные из исходных данных или извлеченные с помощью алгоритмов, содержат более или менее примеси. На уровне схемы можно добавить методы ручной проверки и правила ограничения проверки для обеспечения стандартизации импортированных данных. A, содержит, ресторан B> отношения, строго требуется, чтобы Тип субъекта А был POI, а Тип объекта Б — Блюдо. Для точности отношений между объектами, например, правильно ли верхние и нижние отношения, правильный ли тип экземпляра, точна ли связь между экземплярами и т. д., достоверность отношения может быть рассчитана с помощью используя информацию об объекте и структурированную информацию в графе, или рассматривая проблему бинарной классификации того, являются ли отношения правильными или неправильными, такими как , для метки «парные свидания», используя информация о магазине А для расчета веса сделает данные более убедительными. Кроме того, если задействованы данные из других источников, перекрестная проверка выполняется одновременно со слиянием данных, чтобы сохранить информацию о прохождении проверки. Когда данные графа предварительно сформированы, в процессе применения знаний ошибки, выведенные из результатов модели, также помогут очистить граф от примесей.
слияние знаний
Слияние знаний в основном решает проблему интеграции разнородных данных из нескольких источников, то есть данные из разных источников и разных структур, но выражающие единую сущность или концепцию, сливаются в одну сущность или концепцию. Интеграция знаний из данных из нескольких источников неизбежно потребует работы по слиянию знаний. Слияние сущностей в основном включает такие технологии, как слияние схем, выравнивание сущностей и связывание сущностей.
Схема — это модель графа знаний, и ее слияние эквивалентно слиянию слоя типа и слиянию свойства. На графике определенного поля Тип и Свойство ограничены по количеству и могут быть объединены вручную. Например, выравнивание можно рассматривать как проблему сортировки для поиска наиболее подходящих экземпляров или проблему бинарной классификации для сопоставления или нет.Его функции могут быть получены на основе информации об атрибутах объекта, структурной информации схемы, семантической информации и т. д.
Выравнивание сущностей — важный процесс при слиянии данных из нескольких источников. Когда данные поступают из разных систем баз знаний, необходимо различать, что они описывают один и тот же объект, объединять соответствующую информацию и, наконец, генерировать единственный объект в базе знаний. Обычно это проблема бинарной классификации, заключающаяся в поиске наибольшего сходства или оценке того, являются ли два объекта одинаковыми.Имя объекта, атрибуты объекта и его структурная информация могут использоваться в качестве полезных функций. В то же время область сопоставления сущностей сужается ограничениями типа или правила.
Как только граф построен, как точно сопоставить соответствующие объекты на графике из текста, а затем расширить соответствующие фоновые знания, является проблемой связывания объектов. Ссылка на сущность [7] в основном опирается на таблицу отношений сопоставления «многие ко многим» между сущностью и всеми упоминаниями (целевыми текстами сущностей в текстовых документах), такими как «Раки», фактическая соответствующая сущность сущности упоминания на графике может быть " Блюдо "Пряных раков" также может быть блюдом "Тринадцати ароматных раков". Для Упоминания, идентифицированного из текста, используйте контекст и другую информацию, чтобы отсортировать Сущность-кандидата, чтобы найти наиболее вероятную Сущность. Связывание сущностей может правильно найти сущность, предложенную пользователем, и понять истинное намерение выражения пользователя, чтобы дополнительно изучить поведение пользователя и понять предпочтения пользователя.
Рис. 6. Связывание сущностейMeituan Brain также использует данные из нескольких источников и включает их, а объединение знаний является важным шагом в построении карты. Взяв в качестве примера подграф о еде, граф представляет собой слияние структурированных данных и знаний, извлеченных из текстов.Знания о блюде, извлеченные из текста, связаны, и, во-вторых, знания о блюде, которые не могут быть связаны, должны быть сгруппированы и абстрагированы в посудная сущность. Слияние знаний значительно увеличивает количество блюд и обогащает информацию о блюдах.В то же время оно предоставляет пары-кандидаты для таблицы отношений сопоставления связей сущностей, что помогает нам поддерживать больше измерений (таких как вкус, ингредиенты) в процесс поиска запрос.
представление знаний
Представление знаний - это описание и соглашение о данных знаний, цель которого - позволить компьютерам понимать знания, как люди, чтобы компьютеры могли в дальнейшем рассуждать и рассчитывать. Большинство графов знаний представлено символическим способом, в котором RDF является наиболее часто используемой моделью символического семантического представления.Одно из его ребер выражает объективный факт для тройки .Этот метод интуитивно понятен,понятен, интерпретируем , и поддерживает рассуждения.
С развитием глубокого обучения постепенно появился алгоритм встраивания, основанный на векторном представлении.Он обучает представляемый вектор для каждой сущности и отношения.Этот метод прост в выполнении алгоритмического обучения и может представлять невидимые знания и дополнительно исследовать невидимые знания. Обычно используемые модели встраивания включают серии Word2Vec и Trans [8][9], которые будут подробно описаны в последующих сериях статей. Meituan Brain относится к идее моделирования Freebase, хранит огромные знания в распределенном хранилище данных в виде триплета
интеллектуальное мышление
Работа рассуждений, основанная на графе знаний, направлена на получение новых знаний на основе существующей информации о знаниях, включая отношения сущностей, атрибуты и т. д., или на выявление неправильных отношений. Его можно разделить на рассуждение, основанное на символах, и рассуждение, основанное на статистике.Первый обычно создает новые правила отношений сущностей на основе классической логики или оценивает противоречия существующих отношений, а второй изучает новые объекты из графа с помощью статистических правил. .
Используя отношения между сущностями, можно вывести некоторые сценарии, чтобы помочь в принятии решений и суждений. Финансовая подкарта Meituan использует поведение пользователей, отношения с пользователями и географическое положение для выявления мошеннических банд в финансовом секторе. Банды обычно имеют много ассоциаций и сходных характеристик. Отношения на графике могут помочь вручную идентифицировать мошеннические банды с многоуровневыми и многомерными ассоциациями, а затем использовать правила и другие методы для выявления групп клиентов с похожим поведением, чтобы помочь в ручной оптимизации. исследований, при этом стратегия может быть оптимизирована.
Рис. 8 Применение рассуждений на основе знаний в финансовых сценарияхРасширение возможностей знаний
Граф знаний содержит обширную семантическую информацию и обеспечивает более глубокое понимание текста на основе семантики.Он может предоставлять более прямые и точные результаты запросов в областях рекомендаций, поиска, ответов на вопросы и т. д., что делает сервис более интеллектуальным.
Персонализированная рекомендация использует объекты, представляющие интерес для пользователей, через отношения между объектами, дополнительно расширяет аналогичные объекты, предпочитаемые пользователями, и предоставляет интерпретируемый рекомендуемый контент. С одной стороны, граф предоставляет информацию о признаках объектов в нескольких измерениях, с другой стороны, вектор обучения представления имеет определенную семантическую информацию, что делает поиск рекомендуемого объекта ближе к целевому объекту или более смещенным к предпочтениям пользователя.
Семантический поиск означает, что обработка запроса поисковой системой больше не ограничивается самим литералом, но абстрагирует сущности и намерения запроса и напрямую предоставляет ответы, необходимые пользователям, через граф знаний, а не только результаты сортировки веб-страниц, более точные , удовлетворить потребности пользователей. В настоящее время поисковые системы Google, Baidu и Shenma интегрировали семантический поиск на основе графа знаний в поисковые системы.Для некоторых поисковых запросов информация о результатах может отображаться интеллектуально и напрямую.
Бизнес-приложения Meituan Brain
Опираясь на модель глубокого обучения, Meituan Brain полностью анализирует и сопоставляет общедоступные данные различных бизнес-сценариев Meituan Review (таких как отзывы пользователей, блюда, этикетки и т. д.) и создает «мозг знаний» для общественного питания и развлечений, и начал проводить исследования в различных компаниях Meituan.Приземлился, используя технологию искусственного интеллекта, чтобы всесторонне улучшить жизненный опыт пользователя.
Умный поиск: помощь пользователям в принятии решений
Граф знаний может точно описывать предприятия в нескольких измерениях и применяется в поиске продуктов питания и путешествий для поиска магазинов, которые им больше подходят. Результаты поиска, основанные на графе знаний, не только точны, но и разнообразны. Например, когда пользователь ищет ключевое слово «рыба» в категории продуктов питания, с помощью графа можно распознать, что поисковый запрос пользователя — «рыба "...Ингредиенты". Поэтому в результаты поиска включаются не только точные результаты, такие как «кисло-сладкая рыба» и «рыба на пару», но и блюда с рыбой в качестве основного ингредиента, такие как «сай краб», что значительно увеличивает разнообразие результатов поиска и улучшает поисковый опыт пользователей. . И для каждого рекомендуемого бизнеса можно найти факторы, которые больше всего волнуют пользователей, на основе графа знаний, чтобы сгенерировать причину рекомендации для «тысячи людей, тысячи лиц». Пользователь А видит причину рекомендации как « Da Dong's Roast Duck заслуженно», а пользователь Б, предпочитающий «элегантную обстановку», причину рекомендации видит в «экологической мелкой буржуазии со сценическими представлениями», что не только делает результаты поиска более наглядными, в то же время, это также может привлечь пользователей с разными предпочтениями для входа в бизнес.
Рис. 9. Применение графа знаний при поиске обзоровДля поиска на основе сцены граф знаний также имеет большие преимущества.В качестве примера возьмем фестиваль Циси, используя специальные метки Циси в графе знаний, такие как знакомства со святыми местами, частная среда, новые блюда, музыкальные рестораны, рестораны на виллах, и т. д., в сочетании с торговцами Детальный анализ настроений в комментариях предоставляет поиску Meituan больше бизнес-данных, подходящих для пар, празднующих фестиваль Циси, которые можно использовать для вызова и отображения результатов поиска на основе сцены фестиваля Циси, что значительно улучшает пользовательский опыт и конверсию кликов пользователей.
Благодаря тесному сотрудничеству двух команд Центра НЛП и Центра поисковой разведки Дяньпина архитектура поиска была модернизирована в целом с использованием технологии графа знаний и технологии глубокого обучения. По прошествии 5 месяцев основной индекс поиска комментариев по-прежнему имеет очень очевидное улучшение на основе высокого уровня.
ToB Merchant Empowerment: Business Brains Guide Принятие решений владельцами магазинов
Meituan Brain применяется к профессиональной версии кассовой системы SaaS.Читая каждый комментарий каждого продавца с помощью машинного интеллекта, мы можем полностью понять чувства каждого пользователя к продавцу и обобщить большое количество пользовательских оценок для каждого продавца, поэтому чтобы иметь возможность узнать конкурентные преимущества/недостатки продавцов на рынке, общую тенденцию впечатлений пользователей в отношении продавцов и изменения популярности блюд продавцов. Кроме того, благодаря всестороннему анализу подробных отзывов пользователей можно подробно описать текущий статус услуг продавцов и предоставить продавцам перспективные направления бизнеса. Эти интеллектуальные бизнес-предложения будут регулярно доходить до различных продавцов через профессиональную версию кассовой системы Meituan SaaS и разумно направлять продавцов к точной оптимизации своих бизнес-моделей.
Традиционные услуги бизнес-анализа, предоставляемые владельцам магазинов, в основном сосредоточены на анализе денежных потоков и источников клиентов в отдельном магазине. Meituan Brain полностью учитывает отношения между продавцами и покупателями и может предоставить более подробный бизнес-анализ от продавцов до покупателей и от продавцов до делового района, в котором они расположены.Он может предоставить подробную информацию до, во время и в будущем. руководство.
При анализе возможностей обслуживания продавцов субъективные и объективные теги, обнаруженные в отзывах продавцов на графике, такие как «энтузиазм обслуживания», «услуги быстрого питания», «бесплатная парковка» и т. д. Детальный анализ настроений Aspect сообщает продавцам, что дела идут хорошо, что является текущим конкурентным преимуществом, чего недостаточно, нужно улучшить как можно скорее. Следовательно, он может более точно направлять предприятия для ведения коммерческой деятельности. Что более разумно, так это то, что мозг Meituan также может сделать вывод о том, выше или ниже узнаваемость бизнеса покупателем, чем средняя эмоциональная ценность делового района, в котором он расположен, что позволяет владельцу магазина с первого взгляда понять его реальную конкурентоспособность.
С точки зрения анализа групп пользователей-потребителей, Meituan Brain может не только сообщать владельцу магазина возрастную группу и гендерное распределение покупателей, которые приходят, но также делать выводы об уровне потребления покупателем, предпочтениях в обеденной среде и рекомендуемых блюдах, подходящих для них. , чтобы владелец магазина мог целенаправленно корректировать цены, обновлять блюда и оптимизировать столовую.
Управление финансовыми рисками и борьба с мошенничеством: создание системы кредитной отчетности на основе поведения пользователей
Способность рассуждать и интерпретируемость графов знаний имеют естественные преимущества в финансовых сценариях. Распространение финансовых хороших пользователей и защита пользователей от мошенничества, созданная совместно Центром НЛП и Meituan Finance, основана на обнаружении сообщества и распространении меток в графах знаний. Управление рисками для пользователей может более точно идентифицировать просроченных клиентов и плохое поведение пользователей, тем самым значительно улучшая возможности управления кредитным риском.
В сценариях борьбы с мошенничеством графы знаний помогают финансовым командам выявлять и подтверждать многочисленные случаи мошенничества в ходе расследований. Поскольку банды обычно имеют больше ассоциаций и схожие характеристики, диаграмма отношений может помочь выявить мошеннические банды с многоуровневыми и многомерными ассоциациями и может быть разделена на четыре степени, пять степеней или даже больше между пользователями и пользователями, пользователями и устройствами, и устройства и устройства.Углубленные ассоциации, общее оборудование и общий Wi-Fi обнаруживаются для выявления мошеннических банд, а также могут быть обоснованы и предсказаны подозрительное оборудование и подозрительные пользователи на основе существующих правил борьбы с мошенничеством для раннего предупреждения, таким образом становясь мощный помощник для расследования дела.
будущие вызовы
Процесс построения графа знаний — это первый раз, когда компания Meituan исследовала процесс построения/добычи/хранения/приложения на основе графа, и он также столкнулся со многими проблемами.Основные проблемы и контрмеры заключаются в следующем:
(1) Генерация и импорт данных
- Трудности: построение и обновление схемы, множество источников данных, несогласованность данных, проверка качества данных.
- Контрмеры: благодаря специальной очистке различных данных, проверке ограничений метаданных, проверке правильности бизнес-логики и т. д. были установлены строгие спецификации доступа к данным и обновления.
(2) Добыча знаний
- Сложность: интеграция знаний, представление, рассуждение и проверка.
- Контрмеры: Заимствуя векторное представление слова в тексте, для знаний устанавливается представление единого семантического пространства, так что семантика может быть рассчитана, а рассуждения основаны на алгоритмах глубокого обучения и представления знаний.
(3) Хранение десяти миллиардов графов и механизм запросов
- Сложности: хранение данных, запросы и синхронизация, объем данных огромен, а зрелого движка с открытым исходным кодом для прямого использования нет.
- Контрмеры: создайте многоуровневую инкрементную систему, инкрементальную систему в реальном времени, автономную инкрементальную систему и трехуровневый запрос на слияние с полной картой, чтобы уменьшить влияние обновлений карты. В то же время построена полная отказоустойчивость и отказоустойчивость, оттенки серого и механизм отката подкарты. На основе бизнес-характеристик, таких как LBS, представление подграфа разумно делится, и создается индексный слой запроса распределенного графа.
(4) Проблемы с приложением графа знаний
- Трудности: разработка алгоритма, сложная реализация системы и применение в реальном времени.
- Контрмеры: Алгоритм применения графа знаний должен эффективно интегрировать управление данными и знаниями, чтобы улучшить эффект алгоритма и обеспечить лучшую интерпретируемость, что относится к передовой области исследований. В масштабе десятков миллиардов или даже сотен миллиардов взаимосвязей необходимо разработать и реализовать алгоритмы приложений распределенного графа, которые создают серьезные проблемы для алгоритмов и систем.
В общем, для того, чтобы построить все более и более мощный Мейтуанский мозг, Центр НЛП, с одной стороны, использует передовые в отрасли модели алгоритмов для извлечения ассоциаций и применения знаний, а с другой стороны, постепенно выстраивает ведущая отечественная коммерческая распределенная система графического движка для поддержки графических запросов в реальном времени, графических рассуждений и графических вычислений сотен миллиардов графов знаний. В будущих сериях статей Центр НЛП одну за другой раскроет инновационные технологии, лежащие в основе этого, так что следите за обновлениями.
использованная литература
[1] Huang, Zhiheng, Wei Xu, and Kai Yu. "Bidirectional LSTM-CRF models for sequence tagging." arXiv preprint arXiv:1508.01991 (2015). [2] Etzioni, Oren, et al. "Unsupervised named-entity extraction from the web: An experimental study." Artificial intelligence165.1 (2005): 91-134. [3] Banko, Michele, et al. "Open information extraction from the web." IJCAI. Vol. 7. 2007. [4] Mintz, Mike, et al. "Distant supervision for relation extraction without labeled data." Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2-Volume 2. Association for Computational Linguistics, 2009. [5] Zheng, Suncong, et al. "Joint entity and relation extraction based on a hybrid neural network." Neurocomputing 257 (2017): 59-66. [6] Zheng, Suncong, et al. "Joint extraction of entities and relations based on a novel tagging scheme." arXiv preprint arXiv:1706.05075 (2017). [7] Shen, Wei, Jianyong Wang, and Jiawei Han. "Entity linking with a knowledge base: Issues, techniques, and solutions." IEEE Transactions on Knowledge and Data Engineering 27.2 (2015): 443-460. [8] Bordes, Antoine, et al. "Translating embeddings for modeling multi-relational data." Advances in neural information processing systems. 2013. [9] Wang, Zhen, et al. "Knowledge Graph Embedding by Translating on Hyperplanes." AAAI. Vol. 14. 2014.
об авторе
Чжун Юань, доктор философии, руководитель Центра НЛП отдела платформы искусственного интеллекта Meituan, руководитель Поисково-аналитического центра Дяньпин. Он опубликовал более 30 статей на ведущих международных научных конференциях, получил награду ICDE 2015 за лучшую статью и является основным докладчиком учебного пособия ACL 2016 «Понимание коротких текстов», опубликовал 3 академические монографии и получил 5 патентов США. Ранее доктор работал научным сотрудником Microsoft Research Asia и научным сотрудником компании Facebook в США. Он отвечал за Microsoft Research Knowledge Graph, проект Dialogue Robot и службу НЛП на уровне продукта Facebook.
Фу Чжэн, доктор философии, исследователь Центра НЛП Meituan AI Platform, в настоящее время отвечает за проект Meituan Brain. До этого он работал исследователем в группе социальных вычислений Microsoft Research Asia и опубликовал более 30 статей на ведущих конференциях и в журналах в смежных областях, получил награду ICDM 2013 Best Paper Award и опубликовал 1 академическую монографию. Д-р Фучжэн Чжан был промышленным председателем ASONAM и обозревателем международных конференций, таких как IJCAI, WSDM, SIGIR, и международных журналов, таких как TKDE, TOIS и TIST.
Ван Цзюнь, доктор философии, руководитель отдела продуктов и данных Центра НЛП, Meituan AI Platform. До этого Ван Цзюнь отвечал за мультипродуктовую линейку интеллектуальных консультантов в Alibaba Cloud и способствовал созданию системы интеллектуальных услуг Alibaba Cloud.
Минг Ян, магистр, инженер алгоритмов графов знаний Meituan AI Platform NLP Center. В 2016 году он окончил Лабораторию инженерии знаний факультета компьютерных наук Университета Цинхуа.
Сируи, мастер, эксперт по алгоритму графа знаний Meituan AI Platform NLP Center. Ранее он отвечал за граф знаний и исследования алгоритмов, связанных с НЛП, в отделе графов знаний Baidu AIG и участвовал во всем процессе построения и внедрения графа знаний Baidu.
Ифэй отвечает за продукт графа знаний центра НЛП платформы ИИ. В настоящее время он в основном отвечает за проекты внедрения Meituan Brain и Knowledge Graph.
Мэн Ди, инженер по алгоритмам графов знаний в Центре НЛП платформы искусственного интеллекта Meituan, ранее занимал должность старшего инженера и лидера по открытым данным в финтех-компании Wen Yin Internet, бывший научный сотрудник Лаборатории инженерии знаний Университета Цинхуа, соучредитель китайского альянса Open Knowledge Graph Alliance OpenKG .
Предложения о работе
Команда Meituan Dianping NLP набирает все виды талантов алгоритмов, доступны базы Пекин и Шанхай. Миссия Центра НЛП состоит в том, чтобы создать базовую технологию обработки естественного языка и сервисные возможности мирового класса, опираясь на НЛП (обработка естественного языка), глубокое обучение (глубокое обучение), граф знаний (граф знаний) и другие технологии для обработки информации. массивные текстовые данные Meituan Dianping, получить данные различных сценариев, таких как общественное питание, путешествия, отдых и развлечения и т. д., построить карту знаний Meituan Dianping, создать общую службу НЛП и предоставить интеллектуальные услуги семантического понимания текста для Meituan Различные предприятия Дяньпина. Наша команда занимается не только внедрением технологии ИИ, но и проводит среднесрочные и долгосрочные фундаментальные исследования НЛП и графов знаний. Текущие проекты и предприятия включают Meituan Dianping Knowledge Graph, интеллектуальное обслуживание клиентов, голосовой семантический поиск, семантическое понимание комментариев к статьям, интеллектуальный помощник Meituan Dianping и т. д. Это действительно способствует реализации корпоративной миссии «помочь всем лучше питаться и жить лучше», оптимизировать жизненный опыт пользователей, а также улучшать и повышать качество жизни потребителей. Добро пожаловать, друзья, чтобы рекомендовать или самостоятельно рекомендоватьhr.ai@meituan.com.
Алгоритм Пост:Инженер алгоритмов НЛП/эксперт/исследователь,Граф знаний Инженер-алгоритм/Эксперт/Исследователь
Инженерный пост:C++/Java R&D эксперт/инженер,Инженер/эксперт по исследованиям и разработкам платформы ИИ
Сообщение о продукте:Менеджер по продуктам ИИ/Эксперт(НЛП, направление данных)