Эта статья основана на «Графике знаний от 0 до 1 Практика поиска в Shell», опубликованном г-ном Ван Хэцином из Shell Search в Салоне технологий искусственного интеллекта DataFun Talk.
Контент, которым мы поделились сегодня, имеет четыре аспекта: первый представляет карту знаний, а второй рассказывает о том, почему «можно и нужно» внедрить карту знаний в Shell Search. Третье — применение карты знаний в Shell House.Напоследок я расскажу о существующих проблемах и перспективах на будущее.
Во-первых, давайте представим краткую историю графов знаний. В 1960 году семантическая сеть была предложена как способ представления знаний, главным образом для того, чтобы помочь пониманию естественного языка, обычно WordNet, для выражения семантических отношений между словами из разных измерений. В 1980 г. была предложена онтология, которая сначала определяла некоторые онтологии, а затем определяла их связанные отношения.Созревшим приложением является экспертная система. Всемирная паутина была предложена в 1989 году, а затем в 1998 году она была связана гипертекстом с Семантической паутиной, которая должна была добавить семантическое значение каждой веб-странице. В 2006 году была предложена концепция связанных данных для установления некоторых связей между данными в Интернете, например, если информация о его жене Е Ли появлялась на странице Яо Мина, то на «Е Ли» добавлялась ссылка. В 2012 году Google предложил граф знаний, чтобы улучшить общий эффект поиска.
Графы знаний предназначены для описания различных сущностей или понятий, существующих в реальном мире, и их ассоциаций. Каждая из его сущностей идентифицируется глобально уникальным идентификатором, точно так же, как каждый имеет идентификационный номер; вторая заключается в использовании пар атрибут-значение для описания внутренних характеристик сущности и использовании отношений для соединения двух сущностей для описания связи между ними. их. Например, изображение Яо Мина: значение атрибута , относительный тип .
Из истории развития и определения графов знаний видно, что графы знаний имеют пять перспективных преимуществ.Первое — это веб-перспектива, которая устанавливает семантические связи между данными и поддерживает семантический поиск.Выполнение структурированного семантического извлечения. Затем существует перспектива KR (представление знаний), которая использует символическое представление и обработку знаний компьютерами. Другая — это точка зрения ИИ, которая использует карты знаний, чтобы помочь понять человеческий язык.В настоящее время большая часть ИИ реализована в вертикальных полях, и он создаст собственную базу знаний, чтобы помочь внедрению искусственного интеллекта в вертикальных полях. Перспектива БД заключается в хранении знаний в виде графиков. Расширение графа знаний на самом деле является большой сетью знаний, и для хранения используются различные базы данных графа.
В настоящее время сценарии применения графа знаний разделены на две части: одна — это общее поле, а другая — вертикальное поле. Общие поля, такие как поле поиска Google, внутренние Baidu и Sogou, также используются в поле поиска; есть также некоторые поля чата, такие как интеллектуальные роботы и умные часы. Одной из характеристик этого приложения является то, что оно основано на общих графах знаний, а его построение основано на иностранной Википедии. В Китае есть Baidu Baike и Sogou Baike. Структурированные данные на странице извлекаются для построения графа знаний для поддержки вопросов и ответов. и искать в общем поле. Появляется все больше и больше приложений в вертикальных областях, таких как финансы, электронная коммерция, общественная безопасность, сельское хозяйство, телекоммуникации и т. д., таких как борьба с мошенничеством в финансах и преследование преступников в сфере общественной безопасности. Будь то общее поле или вертикальное поле, есть несколько общих условий: первое должно иметь структурированные данные, причем данные должны быть высокого качества и как можно больше данных, второе — библиотека онтологий будет абстрагироваться на на основе данных., с уровня онтологии, чтобы определить типы сущностей и выразить их отношения. Третий - иметь интеллектуальные сценарии приложений, которые могут использовать библиотеки данных и онтологий. В соответствии с преимуществами и существующими условиями графов знаний определяется нужны ли бизнес-сценариям графы знаний. В настоящее время поля, поддерживаемые графами знаний, включают поиск, ответы на вопросы, рекомендации и анализ взаимосвязей данных графа.
Далее поговорим о том, почему карта знаний может попасть в поиск оболочки. Прежде всего, у нас есть множество доступных данных из двух измерений данных: структурированных и неструктурированных. Он состоит из словаря недвижимости, сущностей уровня данных миллиарда и троек уровня 1 миллиард. Типы охвата включают списки жилья, источники клиентов, сообщества, школьные округа, станции метро, просмотр ленты, транзакции и другие данные. Существуют также неструктурированные данные.Уровень диалоговых данных между брокерами и пользователями составляет 100 млн. В основном это диалоговые данные, генерируемые в процессе поиска пользователями домов, консультирования брокеров, доверительных отношений, наблюдения и закрытия. Третий тип — это пользовательские вопросы и ответы и энциклопедические статьи, количество которых превышает 1 млн. Неструктурированные данные — это в основном пользовательские вопросы и ответы и энциклопедические знания о сфере недвижимости.
Словарь структурированных данных по недвижимости охватывает списки жилья, источники клиентов и брокерские системы, а также некоторых клиентов и владельцев, все из которых будут участниками Lianjia.
Затем я расскажу о том, почему нам нужно внедрить карту знаний в поиск в оболочке, потому что поиск в оболочке имеет богатые сценарии применения, такие как интеллектуальный поиск и рекомендации: повышение эффективности поиска пользователей; Умные вопросы и ответы: быть помощником агента для потенциальные клиенты, чтобы найти дом для консультации. На рисунке справа показана воронка бизнес-конверсии в жилищном бизнесе Shell: пользователи ищут дом, консультируются с брокерами, доверяют брокерам наблюдение и, наконец, заключают сделку. Наша цель — помочь получить больше и лучшие возможности для бизнеса, улучшить свои возможности обслуживания, помочь пользователям быстро найти подходящий дом, понять знания о покупке дома и расширить воронку.
В интеллектуальном поиске используйте граф знаний AI+Веб-перспектива для улучшения понимания целей поиска; в интеллектуальных рекомендациях используйте граф знаний AI+БД; рекомендуйте связанные дома, используйте граф знаний НЛП+ИИ в интеллектуальных вопросах и ответах, отвечайте на вопросы брокеров. ответы о доме. На изображении справа мы видим, что при поиске школы мы можем видеть информацию об объектах, такую как списки жилья и школьные округа, связанные с этой школой.
Далее поговорим о применении карты знаний в Shell Search. Процесс построения системы графов знаний обычно состоит из пяти частей: первая — определение конкретных бизнес-задач, вторая — сбор и обработка данных, третья — проектирование графов знаний, четвертая — хранение графов знаний, и последняя — Разработка приложений и оценка системы.
Архитектура нашей системы графов знаний имеет пять уровней.На уровне данных будет платформа обходчика данных внешней сети.Большая часть данных - это данные интрасети, и данные разделены на две части: структурированные данные и неструктурированные данные. Уровень обработки включает в себя предварительную обработку, нормализацию, объединение данных и вычисление логических выводов. С точки зрения предварительной обработки будут выполняться преобразование структурированных данных, извлечение полуструктурированных данных, извлечение текстовых отношений и маркировка данных.После обработки будет выполняться некоторая нормализация имен объектов, нормализация атрибутов и нормализация значений атрибутов. Выравнивание сущностей будет выполнено при слиянии данных, поскольку сущности будут поступать из разных источников, но выражение является сущностью, может быть пересечение или объединение, или атрибут имеет несколько значений, и будет принято решение о значении атрибута. Вычисление вывода будет выполнять некоторые дополнения вывода правил, рейтинг страниц и поля сортировки на основе существующих данных. После всего поколения будет сформирован граф знаний, будет установлен индекс ES или индекс neo4j, а затем он будет скопирован в hdfs или hive для поддержки различных деловых сторон для вызова данных. Прикладной уровень включает в себя интеллектуального помощника обмена мгновенными сообщениями, интеллектуальную службу поддержки клиентов, интеллектуальный поиск и визуализацию графиков. Слева находится наш слой схемы, начиная с определения типа, определения атрибута и заканчивая созданием библиотеки онтологий. Библиотека онтологий будет поддерживать уровень данных, уровень хранения и уровень приложений.
Первым шагом в построении графов знаний является построение онтологии. Соответствующие типы абстрагируются через проблемы, связанные с бизнесом. Мы абстрагируем четыре типа трафика, мест, людей и организаций. Следующие будут разделены на более мелкие типы, там около 30 типов.Много типов.
Protégé инструмента построения используется для построения библиотеки онтологий.Есть три основные части.Первая часть-это класс, а вторая часть-объекты.Это реляционный атрибут, который описывает атрибуты отношений между двумя сущностями. Свойства данных — это внутренние свойства, которые описывают свойства самого объекта. Нормальная библиотека онтологий строится снизу вверх, начиная с данных. Однако в нашем бизнесе нам потребуются некоторые самоопределяемые атрибуты и добавление некоторых специальных ограничений, поэтому мы используем комбинацию восходящего и нисходящего для построения библиотеки онтологий. В процессе построения также добавляются настраиваемые ограничения на отношения атрибутов, такие как шифрование, порядок отображения, нормализация и другие ограничения.
Далее мы представим реализацию графа знаний в интеллектуальном помощнике IM, Сценарий приложения - быстрее решать проблемы пользователей и повышать эффективность работы брокеров. Согласно историческим данным чата между брокерами и пользователями, сделана классификация.Пользователи в основном задают пять типов вопросов, 75% из которых касаются деталей дома, 10% — о встречах, 6% — кредитах и 3% — рекомендации. На рисунке справа показана доля 20 основных намерений в общем числе 75% вопросов, и наиболее часто задаваемым является вопрос о жилье школьного округа. Делая это от 0 до 1, мы поставили в приоритет решение 75% деталей дома.
Для этих задач осуществляется процесс сбора и обработки данных.Сначала необходимые данные о жилье получаются из словаря недвижимости, а затем они попадают в процесс построения карты знаний.После того, как вся статистика будет завершена, ее коэффициент охвата будет рассчитывается, и, наконец, он войдет в индекс ES, и, наконец, данные будут оценены.Соответствует ли он ожиданиям, индекс будет установлен после того, как он оправдает ожидания, и для исключений будет выполняться некоторый мониторинг и тревоги.
Интеллектуальный помощник IM перечисляет детали архитектуры поиска, сначала пользователь задает вопрос, через сегментацию слов в модуле NLU, а затем через модуль NER, DA выполняет анализ объектов, а затем распознавание намерений. После определения намерения войдите в модуль поиска, сгенерируйте SQL, запросите поля через индекс ES и сгенерируйте результаты из запрошенных полей. На этапе генерации результатов есть дизайн языка, чтобы сделать результаты ответов более гуманными, а также есть сращивание результатов. На более позднем этапе мы определим наши собственные шаблоны речи для разных брокеров.
Также есть вопросы и ответы по знаниям в ИМ, но будут некоторые вопросы, ответы на которые не совпадают и не очень точны, так как их решать. Мы классифицируем вопросы, часто задаваемые пользователями, и используем граф знаний для представления пар вопрос-ответ в виде троек и троек событий. При столкновении с событием, что делать и почему, получите тройки типов событий как и почему; существуют также тройки сущностей, которые делятся на то, что является сущностью, и каковы атрибуты, которые определяются как типы что и ep. Третий - дискриминативный, какой тип: в чем разница между сущностью А и сущностью Б. Случайная выборка из исторического журнала, соответствующая тройному шаблону 10%.
Как точно понять цель поиска пользователя и найти точные ответы. Например, «условия кредита поставщика?» Мы будем рассматривать резервный фонд как сущность, а условия — как атрибут. Это тип EP, а «Что такое каменная несущая стена?» Это какой тип. «Что мне делать, если я подпишу неправильный тип депозита?», определите «подписать неправильный депозит» как событие и «как сделать» как атрибут, который классифицируется как тип «как». Это семантический поиск, а не традиционный расчет, основанный на ключевых словах или семантическом сходстве.
Приведенная выше картина основана на точном вопросе и ответе троек, которые делятся на онлайн и оффлайн. В оффлайн части мы будем делать извлечение и майнинг троек из FAQ (часто задаваемых вопросов) в оффлайне, и извлекать соответствующие тройки из вопросов, которые соответствуют тройкам в историческом FAQ. В онлайн-части тот же пользовательский запрос используется для определения намерения, входа в базу знаний для соответствующего поиска и, наконец, возврата уникального совпадающего триплета для формирования ответа. Разумеется, тройки, полученные при майнинге, нужно размечать вручную, цель — обеспечить точность ответа и качество базы знаний.
Граф знаний также может быть оптимизирован для применения во многих сценариях. После того, как мы создадим граф знаний, мы можем искать и анализировать отношения между двумя объектами. Изучая отношения между различными поисковыми запросами одного и того же пользователя, мы можем лучше оптимизировать поиск и оптимизация отзыва поиска. Когда мы ищем дома рядом с определенным сообществом, но нет соответствующего списка жилья, мы рекомендуем дома в сообществах рядом с сообществом.
Вышеприведенное изображение представляет собой разработанную нами платформу визуализации данных графа, которая визуализирует все сущности, участвующие в поиске оболочки. Цель состоит в том, чтобы показать взаимосвязь между внутренними данными, чтобы C-конечные пользователи могли лучше найти дом, а не простой список поиска.
Подводя итог сегодняшнему контенту, первое — это пять точек зрения на преимущества графа знаний: Интернет + НЛП + KR + ИИ + БД. Есть три необходимых и достаточных условия для реализации графов знаний: данные + библиотека онтологий + интеллектуальные сценарии приложений. Реализован граф знаний в Shell Finding Housing, 1. Данные отрасли недвижимости: структурированные данные словаря недвижимости + неструктурированные пользовательские текстовые данные недвижимости, 2. Библиотека отраслевых онтологий: поддержка построения графических данных + интеллектуальное приложение, 3. Интеллектуальное приложение: интеллектуальное поиск + Интеллектуальные вопросы и ответы + Интеллектуальные рекомендации + Графическая визуализация данных.
Наконец, я хотел бы поделиться с вами проблемами, с которыми мы столкнулись в процессе нашей практики: 1. Построение базы данных онтологий требует добавления и уточнения экспертов в сфере недвижимости, 2. Типы и сущности слов в сфере недвижимости. необходимо стандартизировать и анализировать, а большое количество неструктурированных текстовых данных необходимо срочно структурировать. Задачи на будущее: создать самый авторитетный граф знаний в сфере недвижимости. Улучшите эффект интеллектуального приложения на стороне B и постепенно продвигайте его на сторону C. Карта знаний тесно связана с бизнес-сценариями поиска в оболочке, а карта объединена с приложениями для поиска по карте и домашнему поиску в виртуальной реальности.
об авторе
Ван Хецин, старший инженер по картам знаний Shell Search, в настоящее время отвечает за исследования, разработку и применение карты знаний Shell Search. Работал в Sogou и участвовал в разработке и применении графов знаний в общей области поиска Sogou.
представление команды
Команда Shell Search — это основная команда Центра фундаментальных технологий Shell, которая отвечает за несколько проектов, таких как платформа поиска Shell, интеллектуальный поиск и интеллектуальное обслуживание клиентов, а также отвечает за создание хранилища данных для отрасли недвижимости. Здесь у вас есть возможность работать с экспертами по алгоритмам для изучения новейших технологий: включая граф знаний, НЛП, интеллектуальный анализ данных, использование сотен миллионов листинговой информации Lianjia.com, данных энциклопедии, данных пользовательского контента для построения графа знаний о недвижимости, позволяя списки, клиенты, Взаимосвязь данных между брокерами стала более интеллектуальной; есть также возможности для применения технологий в самых передовых областях бизнеса: интеллектуальные вопросы и ответы, персональные рекомендации, интеллектуальное обслуживание клиентов, проверка качества голоса и т. д.
--КОНЕЦ--
Идентификатор первой публичной учетной записи: datafuntalk, обратите внимание, чтобы увидеть больше статей.
Если вам это нравится, пожалуйста, поделитесь им~~