Сводка основ сети знаний

NLP

Что такое граф знаний?

Простое понимание — это граф.Узлы — это различные сущности в реальности, такие как люди, вещи, организации и т. д., а линии отражают отношения или атрибуты между узлами. как показано на рисунке.avatar

Роль графа знаний

В настоящее время графы знаний широко используются в чат-ботах, рекомендательных системах и т. д., а также в различных вертикальных областях, таких как финансы, сельское хозяйство, электронная коммерция, здравоохранение, защита окружающей среды, сценарии промышленного производства и т. д., извлекая выгоду из предварительных знаний о знаниях. графические характеристики получили широкое распространение. Говоря об абстракции, граф знаний — это огромный сетевой граф знаний, который преобразует дискретные символьные представления в непрерывные векторные представления.

Представление и хранение графа знаний

В настоящее время существует два метода: один — RDF, который состоит из множества троек. Преимущество состоит в том, что его легко опубликовать и поделиться. Недостатком является то, что он не поддерживает атрибуты сущностей или отношений. В основном используется в академических сценариях, обычная - Йена. Другим методом является графовая база данных, которая в основном используется университетами для запросов и поиска.Например, Neo4j является наиболее широко используемым, с понятным интерфейсом, облегчающим выражение отношений в реальных бизнес-сценариях.Да, единственным недостатком является что он не поддерживает распределенный.

avatar

Извлечение знаний

Данные для построения графа знаний — это не что иное, как два источника: один — это внутренние бизнес-данные компании, которые обычно хранятся в структурированной базе данных и могут использоваться напрямую. Другой — это веб-страницы, которые необходимо сканировать из Интернета поисковыми роботами, или данные, предоставленные извне.Такие данные относительно беспорядочны и неструктурированы и нуждаются в обработке. Так что трудность в основном исходит от последнего. Он в основном включает связанные технологии естественного языка, такие как распознавание имен сущностей, извлечение отношений, унификация сущностей и разрешение ссылок. На следующем рисунке неструктурированный текст используется для построения графа знаний.

avatar

Используются несколько технологий НЛП, задействованных в вышеизложенном.avater

avater

Составьте карту знаний

Распространенное заблуждение: не принимая во внимание важность данных, многие думают, что основное внимание при построении системы графов знаний уделяется алгоритмам и разработке. Но дело не в том, что представлялось, на самом деле самое главное ядро ​​заключается в понимании бизнеса и дизайне самой карты знаний, а также есть некий прогноз на будущее бизнеса, который похож на бизнес-систему. , таблица базы данных Дизайн бизнеса имеет особое значение, и этот дизайн абсолютно неотделим от глубокого понимания бизнеса и прогнозирования будущих изменений бизнес-сценариев.

Основные шаги:

  1. Определите, нуждается ли ваш бизнес в поддержке графов знаний

    avatar

  2. Определить конкретные бизнес-задачи

  3. Сбор и предварительная обработка данных

    Общая проблема:

     1. 我们已经有哪些数据? 
     2. 虽然现在没有,但有可能拿到哪些数据? 
     3. 其中哪部分数据可以用来降低风险? 
     4. 哪部分数据可以用来构建知识图谱?
     5. 注意并不是所有跟目标相关的数据都要进入知识图谱
     
    
  4. Дизайн графа знаний

    Общая проблема:

     1. 需要哪些实体、关系和属性? 
     2.  哪些属性可以做为实体,哪些实体可以作为属性? 
     3. 哪些信息不需要放在知识图谱中?
     
    

    Принципы дизайна:

     业务原则:一切要从业务逻辑出发,并且通过观察知识图谱的设计也很容易推测其背后业务的逻辑,而且设计时也要想好未来业务可能的变化。好的设计很容易让人从图谱中看到业务本身的逻辑。
     分析原则:不需要把跟关系分析无关的实体放在图谱当中。
     效率原则:在于把知识图谱设计成小而轻的存储载体,对关系分析无关紧要的信息放在传统的关系型数据库当中。
     冗余原则:有些重复性信息、高频信息可以放到传统数据库当中。
    
  5. Хранение графа знаний

    Что касается хранилища, нам придется столкнуться с выбором системы хранения, но, поскольку граф знаний, который мы разработали, имеет атрибуты, база данных графа может быть первым выбором. Но что касается того, какую графовую базу данных выбрать, то это также зависит от объема бизнеса и требований к эффективности. Если объем данных очень велик, Neo4j может не удовлетворить потребности бизнеса, в это время приходится выбирать квазираспределенную систему, такую ​​как OrientDB, JanusGraph (ранее Titan) и т. д., или хранить информации в традиционной базе данных, тем самым уменьшая количество информации, переносимой графом знаний. Вообще говоря, Neo4j достаточно.

  6. Разработка приложений верхнего уровня и оценка систем

    Постройте хороший график знаний и извлекайте ценную информацию из графика по мере необходимости. С точки зрения алгоритма существует три разных сценария: один основан на правилах, а общие приложения — проверка несоответствия, извлечение признаков на основе правил и оценка на основе шаблонов; другой — на основе вероятностей. и т. д.; другой основан на динамических сетях, и общие приложения включают изменения риска от времени T до времени T+1.

    Недостаток вероятностных методов по сравнению с методологиями, основанными на правилах, заключается в том, что они требуют достаточного количества данных. Если объем данных невелик, а весь граф разреженный (Sparse), первым выбором может быть метод, основанный на правилах. Особенно в финансовой сфере будет меньше меток данных, что является основной причиной того, что методология, основанная на правилах, по-прежнему чаще используется в финансовой сфере.

    Учитывая текущий статус технологии ИИ, методология, основанная на правилах, по-прежнему доминирует в приложениях в вертикальных областях, но с увеличением объема данных и совершенствованием методологии модели, основанные на вероятности, будут постепенно приносить большую пользу.

конец

Прежде всего, основной функцией графа знаний является анализ отношений, особенно глубоких отношений. Поэтому в бизнесе мы должны в первую очередь обеспечить его необходимость, ведь многие задачи можно решить методами без графа знаний.

Одной из наиболее важных тем в области графа знаний является рассуждение о знаниях. А рассуждения о знаниях — единственный способ добиться сильного искусственного интеллекта. Но, к сожалению, многие технологии рассуждений, обсуждаемые с точки зрения семантических сетей (например, глубокое обучение, вероятность и статистика), трудно реализовать в практических вертикальных приложениях. На самом деле, самый эффективный способ основан на некоторой методологии, основанной на правилах, если только у нас нет очень большого набора данных.

Наконец, следует подчеркнуть, что сам проект графа знаний по-прежнему ориентирован на бизнес и данные. Не стоит недооценивать важность бизнеса и данных.

Ссылка на эту статью:blog.CSDN.net/Li Zongwei17750614…