Обмен галантерейными товарами | Обучение представлению на графиках знаний RDF и LPG

машинное обучение

По мере приближения запуска основной сети экосистема графа знаний также потихоньку строится. Как популярный текущий трек, индустрия графов знаний также постоянно представляет новые теории и новые концепции.Чтобы синхронизировать новейшие и самые передовые в мире галантерейные товары в области графов знаний, EpiK специально откроет колонку для обмена знаниями. Я надеюсь, что все смогут участвовать вместе. Приходите, присоединяйтесь к нашему сообществу графа знаний передового контента и вместе вносите свой вклад в граф знаний.

Сегодня я делюсь книгой Михаила Галкина «Обучение представлению на графах знаний RDF и LPG». Эта статья начинается с нескольких распространенных методов построения графа знаний, таких как тройки, RDF, LPG и т. д., посредством анализа общей стандартной парадигмы троек графа знаний, указывает на недостаточность познания сущностей, представляет RDF и важную роль LPG при построении графов знаний, особенно при построении гиперреляционных графов знаний.

В этой статье мы рассмотрим структурную парадигму троек при построении графов знаний, а также познакомимся с новыми понятиями — гиперграфами, гиперреляционными графами знаний и разработкой гиперреляционных графов знаний, кодированием гиперреляционных графов знаний, Весь процесс декодирования и так далее.Исходный текст (см. чтение исходного текста) переведен следующим образом:

Графы знаний (KG) являются краеугольным камнем современных приложений НЛП и ИИ. Недавние результаты включают в себя ответы на вопросы, связывание сущностей и отношений, языковое моделирование, извлечение информации и даже воспроизведение текстовых ролевых игр с обучением с подкреплением. Кроме того, графы знаний получили широкое распространение в отрасли, например, ряд достижений на недавней конференции по графам знаний (KGC):

тройки против мира

Традиционно KG кодируются как тройки (RDF), и многие общедоступные KG, такие как DBpedia и YAGO, изначально следуют этой парадигме и стандарту, поддерживаемому выразительными логическими формами, такими как RDF и OWL.

тройной факт. Учился ли Эйнштейн в двух колледжах одновременно? Изображение предоставлено автором.

Используя тройки, приведенный выше пример, описывающий университет, в котором учился Альберт Эйнштейн, можно закодировать как две тройки:

Альберт Эйнштейн получил образование в ETH Zurich.

Альберт Эйнштейн, образование, Цюрихский университет

Ну, это выглядит нормально для простого приложения, но оказывается, что наш мир немного сложнее, чтобы разбить все на тройки. Например, означают ли эти две тройки, что Альберт Эйнштейн получил образование в обоих местах? Или они присудили ему такую ​​же степень?

На самом деле Эйнштейн получил степень бакалавра математики в ETH Zurich и докторскую степень по физике в Цюрихском университете.

Можем ли мы иметь механизм для более подробного изложения фактов?

да. В мире KG есть по крайней мере два способа сделать это — графы RDF и графы помеченных свойств (LPG). Оба этих метода позволяют конкретизировать каждый факт путем добавления вторичных пар ключ-значение (реляционная сущность) к краям в KG. Оба подхода уже поддерживаются крупными поставщиками графовых баз данных.

В мире LPG и узлы, и ребра естественным образом могут иметь свойства ключ-значение. Neo4j, вероятно, самое громкое имя в семействе LPG. Пользователи могут запрашивать LPG с (открытым) паролем. Недавний covid-19 KG доступен в виде дампа Neo4j.

Первоначально RDF был предложен Олафом Хартигом (его блог является отправной точкой для исследования RDF и связанных с ним методов) для решения многих проблем с пресловутым механизмом материализации RDF (ознакомьтесь с этим обзором Фрея и др. для всестороннего обзора материализации), в то время как сохранение возможностей рассуждений, связанных с графами RDF. Опираясь на прочную теоретическую основу, RDF предлагает несколько способов обогащения троек более подробной информацией. Вы можете запрашивать графы RDF с помощью SPARQL, расширения SPARQL для RDF. Apache Jena, RDF4J, N3.js, Blazegraph, AnzoGgraph, StarDog и GraphDB поддерживают RDF и SPARQL.

Наш пример в синтаксисе RDF может выглядеть так:

Гиперграф или гиперграф?

Подходит ли этот термин для такого графа знаний? Был небольшой разрыв в размере словарного запаса, прежде чем Rosso et al. Тем не менее, существует распространенное неправильное использование термина «гиперграф», поэтому мы также хотим выступать за графы «гиперреляций».

Основное различие между этими двумя терминами заключается в представлении фактов. Гиперграф предполагает наличие (именованного) гиперребра, объединяющего несколько объектов:

Каждый узел состоит из 4 узлов. Обратите внимание, что мы теряем предикаты, связанные с академическими специальностями и степенями. Изображение предоставлено автором.

Похоже на n-арное отношение, верно? У нас есть несколько вопросов:

1. Мы теряем типизированную связь, которую имеют академическая_степень и академическая_майор с бакалавром/докторатом и математикой/физикой соответственно. Вместо этого тип гиперребра представляет собой абстракцию (или довольно странную семантическую смесь) educated_at, Academic_ Degree и Academic_major. Что, если факт также содержит вспомогательный предикат Academic_supervisor? Нам нужно определить новое гиперребро, такое как образование, которое смешивает эти отношения, которые экспоненциально растут с количеством предикатов и квалификаторов.

2. Кроме того, мы также теряем второстепенные характеристики степеней и специальностей, первичные тройки, предназначенные для их описания. Например, бакалавриат и математика являются вспомогательными предметами Альберта Эйнштейна и ETH Zurich и поэтому должны рассматриваться как таковые. Предполагается, что кортежи сущностей в гиперребре одинаково важны для своих элементов. Тем не менее, в следующих разделах мы будем придерживаться гиперреляционного подхода.

Бурно растущий гиперреляционный граф знаний

В 2020 году большинство KG с открытым доменом широко используют гиперреляционные факты. Викиданные и их модель предложений Викиданных — хороший пример гиперреляционного графа знаний. Каждый факт в Викиданных — это утверждение с первичной тройкой и набором вторичных пар отношений квалификатор-сущность. С оператором Викиданных наш пример с Альбертом Эйнштейном можно смоделировать так просто:

В этих утверждениях (академическая_степень, бакалавр) и (академическая_специальность, математика) являются тройными квалификаторами . Важно отметить, что Викиданные (обычно гиперреляционная парадигма) не разделяют сущности и предикаты, посвященные первичным тройкам или квалификаторам, т. е. все предикаты и сущности могут использоваться в трех терминах или словах-квалификаторах (хотя в текущей версии Wikidata, некоторые сущности и отношения можно увидеть только в квалификаторах). Мы будем использовать это свойство в следующих разделах.

Что касается других KG, то с 2018 года новые версии DBpedia содержат овеществленные утверждения, аналогичные Викиданным. Тот факт, что YAGO 4 также использует кодировку RDF. А как же Freebase? Что ж, в 2020 году вам, вероятно, не стоит заниматься колдовством, так как Freebase больше не поддерживается и не обновляется. Однако узел Composite Value Type (CVT) в Freebase действительно напоминает материализацию троичного [но больше похож на n-арное отношение.

Обучение графическому представлению

Наша задача здесь — изучить представление гиперреляционного графа. Под представлением мы подразумеваем вложения сущностей (узлов) и отношений (типизированные ребра). Эти вложения можно использовать для последующих задач, таких как предсказание ссылок, классификация узлов, выравнивание объектов и многие другие задачи, которые можно использовать в NLP, CV и других областях ИИ.

Область обучения представлению графов (GRL) является одной из самых быстрорастущих областей машинного обучения, с несколькими статьями [серия статей Майкла Бронштейна, обзоры статей ICLR 20 и NeurIPS 19 (моя, Сергея), книги (William Hamilton's , Ма и Дона), курсы (CS224W, COMP 766, ESE 680) и даже Telegram-канал GraphML, освещающий базовые и продвинутые темы]. В парадигме кодировщик-декодер кодировщик обычно представляет собой GNN (нейронная сеть графа), а декодер представляет собой встроенную функцию, которая возвращает значение или вектор, относящийся к конкретной нисходящей задаче, например вероятность того, что объект является объектом для данного пара.

Что представляет собой граф знаний, основанный на триадах?

Кодер: семейство многореляционных кодировщиков GNN, таких как R-GCN (Schlichtkrull et al., ESWC 2018) и CompGCN (Vashishth et al., ICLR 2020), которые расширяют исходную сверточную сеть графа (GCN) в рамках алгоритма передачи сообщений. .

Декодер: на самом деле, традиционные алгоритмы встраивания KG, такие как TransE, ConvE, RotatE и т. д., являются лучшими примерами декодеров для задач прогнозирования ссылок. Первоначально их также можно обучать как модели, предназначенные только для декодера, напрямую оптимизированные сквозным образом для задачи прогнозирования ссылок.

Что такое гиперреляционный граф знаний?

Ну, не так уж и много. (по состоянию на осень 2020 г.)

Кодер:? ? ?

Декодер: HINGE, предложенный Россо и др., представляет собой сквозную модель на основе CNN для прогнозирования ссылок на гиперреляционных графах. Что ж, мы не можем иметь дело с такой очевидной пропастью в кодирующей части GNN ? и предложили StarE в нашей недавней статье EMNLP 20 «Обмен сообщениями для гиперреляционных графов знаний» Приянша Триведи, Гаурав Маххвари, Рикардо Усбек и Йенс в соавторстве по Леманну. StarE — это мультиреляционный кодировщик GNN, который расширяет CompGCN до гиперреляционных KG. Название было вдохновлено дизайном RDF StarE с учетом следующих особенностей:

Явное моделирование отношений, включая квалифицирующие отношения;

Отделение вспомогательных сущностей и отношений в квалификаторах от сущностей и отношений в первичных тройках;

Тем не менее, любой объект и любое отношение по-прежнему могут использоваться как для первичных троек, так и для квалификаторов;

Перестановочная инвариантность к порядку квалификаторов - они не имеют определенного порядка и могут свободно переставляться. Тем не менее, для основных троек

Некоторые математические вопросы для любителей математики

Давайте проследим эволюцию кодировщика GNN с учетом отношений в его схеме агрегации соседей:

В StarE основное тройное отношение h_r, возникающее между узлами u и v, дополняется квалификатором совокупного вектора функции gammah_q(), который может быть взвешенной суммой, умножением, conat или любой другой бинарной функцией (мы выбираем взвешенную сумму). Получаем вектор hq:

То есть сначала мы объединяем отношения квалификаторов и вложения сущностей h_{qr} и h_{qv} в вектор соответственно с помощью функции композиции, которая может быть функцией оценки для семейства вложений KG, таких как RotatE. Затем мы применяем инвариантную к перестановке функцию агрегации для объединения любого количества квалификаторов в вектор, который, наконец, проецируется через матрицу преобразования W_q. Поскольку все сущности и отношения обычно можно увидеть в первичных тройках и квалификаторах, W_q направлен на изучение представлений сущностей и отношений, специфичных для квалификаторов. Мы по-прежнему сохраняем компонент CompGCN: phi_() — функция композиции, похожая на phi_q, но теперь она включает узел с расширенным представлением ребер. W_{\lambda} — весовой параметр для входящих, исходящих и самоциклических отношений.

Разреженное кодирование гиперреляционных графов знаний

Для повышения эффективности GNN работают с разреженными матрицами.

Может быть представлен как тензор [2, num_edges] в формате COO со строкой для типа ребра.

Надреляционный факт с квалификатором можно записать следующим образом:

Первые три элемента всегда представляют «основные» тройки, а последующие пары являются квалификаторами без определенного порядка (помните об инвариантности порядка в Викиданных). количество отборочных? В этой статье мы предлагаем следующие кодировки:

То есть у нас есть две матрицы COO:

Обычный «тройной» COO с неявным индексом столбца k

COO «квалификатор» формы [3, num_qualifiers], где первая строка содержит индексы столбцов в «тройном» COO, а вторая строка содержит отношение квалификатора и третий объект квалификатора. Индексная строка соединяет столбец квалификаторов с основной тройкой. То есть столбцы в «классификаторе» COO, которые имеют один и тот же индекс k, принадлежат k-й тройке в «тройной» матрице COO. Это позволяет нам иметь O(q) в памяти для количества квалификаторов в KG и O(|edge| + |qualifier|) в общей памяти. ️

Нам нужно больше говорить о наборах данных

Мы кратко говорили о кодировании гиперреляционных фактов в виде последовательностей сущностей и отношений. Но есть ли уже надежные наборы данных для экспериментов на таких КГ? Традиционно вложения KG оцениваются по задачам прогнозирования ссылок, в то время как задачи машинного обучения графа включают классификацию узлов, классификацию графов, сопоставление сущностей и многое другое. На данный момент существует только два набора данных прогнозирования ссылок: Wikipeople от Guan et al., который представляет собой дамп Викиданных, описывающих людей, и JF17K, экспорт из Freebase. Однако мы обнаружили их основные недостатки:

В WikiPeople слишком много квалификаторов с текстом (год). Рассматривать текст как другую сущность не рекомендуется, так как числа являются непрерывными значениями и должны рассматриваться как таковые (ну, это обычная проблема с текстом в литературе по встраиванию KG ?). При этом в большинстве случаев такие квалификаторы удаляются. Это приводит к тому, что только 2% фактов в наборе данных имеют квалификаторы, а 80% фактов имеют только одну пару квалификаторов :/.

JF17K имеет утечки тестового набора. На самом деле авторы сами обнаружили «большое количество избыточных троек» и не рекомендуют использовать это в экспериментах. Первоначально HINGE был скорее n-мерным набором данных, который преобразовал его в гиперреляционный формат со вспомогательными предикатами. Мы проводим дальнейшее исследование и обнаруживаем, что более 40% тестовых предложений имеют ту же основную триплету (s, r, o), что и обучающая выборка. То есть в задаче прогнозирования субъекта/объекта простое повторение триплетов может превзойти все предыдущие гиперреляционные методы, которые мы показываем в нашей статье.

Поскольку ни один из наборов данных не подходит для оценки гиперреляционных методов, мы выбрали WD50K из Викиданных в соответствии со следующими рекомендациями:

Сохраняет распределение квалификаторов, подобное Викиданным. В ванильном WD50K около 13% предложений имеют квалификаторы (около 17% от общего числа предложений в Викиданных);

Все квалификаторы представляют собой пары сущность-связь, а не литералы;

Сущности и отношения можно увидеть в первичных тройках и квалификаторах;

99% предложений имеют не более 6 пар квалификаторов. Для дальнейших экспериментов мы выбрали 3 дополнительных набора данных:

WD50K (33) - около 33% утверждений имеют квалификаторы;

WD50K(66) - около 66% утверждений имеют квалификаторы;

WD50K (100) — все операторы имеют квалификаторы. Естественно, эти наборы данных меньше, чем исходный WD50K, с большим количеством уникальных сущностей и отношений квалификаторов.

StarE в прогнозировании ссылок

На этом этапе у нас наконец есть кодировщик StarE и набор данных для предсказания ссылок, подходящий для экспериментов. Наш главный исследовательский вопрос: помогают ли квалификаторы предсказать субъект и объект гиперреляционного факта?

Декодер StarE+ для прогнозирования ссылок. Изображение предоставлено автором.

То есть, имея подлежащее, сказуемое и все детерминанты, мы предсказываем объект подлежащего, и наоборот. Для этого мы линеаризуем данные факты в последовательности, как показано, и используем двухуровневый преобразователь с объединением средних и конечным уровнем FC в качестве декодера. Трансформеры также позволяют нам подавать последовательности разной длины с маркерами заполнения, которые маскируются от вычисления собственного внимания. Для сравнения, мы применяем HINGE только для декодера и двухслойный преобразователь для одной и той же задачи, чтобы измерить, приносит ли кодировщик StarE какую-либо пользу. Так и оказалось!

Мы наблюдаем:

По сравнению с методом, использующим только декодер, StarE значительно улучшает производительность предсказания канала;

StarE даже более эффективен (больший разрыв в производительности), когда в наборе данных больше квалификаторов;

Гиперреляционный подход действительно помогает лучше предсказывать субъекты и объекты, поскольку квалификатор имеет только три базовых уровня. Сколько квалификаторов вам нужно, чтобы увидеть повышение качества? Всего 2 достаточно

Наш экспериментальный план с конкретными числами и интерактивными графиками представлен здесь с весами и погрешностями, поэтому сводка для сообщества KG такова:

Старайтесь назначать описательные квалификаторы большему количеству тройных фактов на графике — чем больше, тем лучше;

Если вы назначаете квалификаторы - добавьте 2 или больше!

Выводы и ресурсы

Графики гиперреляций ближе к реальности, чем обычные тройки, более подробно описывающие факты

RDF и LPG предоставляют средства для построения гиперреляционных графов знаний.

Гиперграфы отличаются от гиперграфов

Гиперреляционные графы знаний уже используются — как в графах знаний открытой предметной области, так и в промышленности.

StarE, управляемый RDF* — GNN-кодер для гиперреляционных KG, который можно использовать в паре с декодерами для последующих задач.

StarE улучшает прогнозирование ссылок по сравнению с методами, использующими только декодер.

Серия наборов данных WD50K лучше отражает задачу прогнозирования ссылок на гиперреляционных KG.