Краткое руководство по встраиванию графов на основе случайного обхода

NLP

Эта статья подготовлена ​​технической командой OPPO Internet, укажите автора для перепечатки. В то же время приглашаем обратить внимание на нашу общедоступную учетную запись: OPPO_tech, чтобы поделиться с вами передовыми интернет-технологиями и деятельностью OPPO.

1. Предпосылки

1.1 Что такое встраивание изображений

Встраивание графов — это технология, использующая атрибуты узлов и топологические отношения между узлами для векторизации сложных и многомерных данных графа.

Структура данных графа преодолевает ограничения традиционных баз данных для организации данных по записям и обеспечивает более гибкие возможности моделирования реальных данных. Как разумно представить информацию в структуре данных графа и легко применить ее к последующим задачам, стало проблемой.

В последние годы, с ростом популярности технологии предварительно обученных векторов слов в области НЛП, встраивание графов, то есть векторизация данных графов, становится все более активной областью исследований.

1.2 Векторизация графических данных

① Могут выполняться последующие вычисления, такие как вычисления похожих/связанных узлов и интеллектуальный анализ графических данных, распространяющиеся на модули расширения бизнес-интересов с рекомендациями по содержанию и предсказание соединения;

② Также можно кодировать знания, содержащиеся в графических данных, в сеть глубокого обучения и участвовать в расчете понимания текста, изображений, потокового мультимедиа и другого контента.

В этой статье команда интернет-технологов OPPO кратко представляет три подхода к расчету встраивания графов на основе характеристик данных в области графов знаний.

1.3 Особенности данных графа общих знаний

① Отношения: будут отношения между узлами (называемые сущностями в графе знаний), такие как общие друзья, участвующие работы и тип атрибуции работы;

②Атрибуты: каждый узел будет иметь различные атрибуты, например, персонажи будут иметь основную информацию, описание фона и другие атрибуты;

③Тип: на карте будут такие типы, как персонажи, работы, бренды и достопримечательности.

2. Метод

2.1 node2vec

Для связи в данных графа Б. Пероцци и др. предложили модель DeepWalk, которая открыла прецедент для встраивания графа случайного блуждания.

Основная идея DeepWalk заключается в следующем:

Произвольно выберите узлы в графе, случайным образом пройдитесь по отношениям в графе, преобразуйте данные графа в последовательность, подобную естественному языку, а затем используйте поле word2vec НЛП (обработка естественного языка) для построения смежности узлов в графе. sequence.modulo, а затем получить вектор каждого узла.

Есть проблема с DeepWalk: блуждание является полностью случайным и не может быть изменено в соответствии с характеристиками сети (такими как веса отношений).

Адитья Гровер и др. предложили для этой задачи алгоритм node2vec, который управляет распределением вероятностей следующего прыжка случайного блуждания по двум параметрам p/q.

2.2 ANRL

Исследователи предложили множество методов для атрибутов в графе, которые не разбиты на отношения (например, описания и другие атрибуты с очень низкой степенью разделения и другие). В этой статье выбирается один из ANRL для представления;

ANRL был предложен Zhen Zhang и др. Идея заключается в следующем:

Через сеть с двумя целями атрибуты узла и взаимосвязи моделируются соответственно, а окончательный вектор встраивания графа ограничивается данными обучения атрибутов и взаимосвязей, и получается вектор встраивания графа, который объединяет информацию об атрибутах и ​​взаимосвязях.

2.3 Metapath2Vec

Графы знаний обычно охватывают несколько областей, особенно графы общих знаний, где типы узлов еще более разнообразны. В дополнение к сущностям, которые имеют в них реальное значение, также будут некоторые узлы для свойств. (например, страна)

Разные типы узлов имеют разные характеристики: например, у страны может быть региональное отношение к фильму, национальная принадлежность к звезде, аттракцион к аттракциону, а истребитель к происхождению.

Следовательно, случайные блуждания различных типов узлов по одним и тем же правилам сопряжены с неотъемлемыми проблемами.

На самом деле случайное блуждание node2vec имеет тенденцию к смещению к узлам с большими степенями Кроме того, нам также необходимо изолировать узлы в разных полях в разной степени в соответствии с бизнес-сценариями.

Yuxiao Dong и др. предложил алгоритм MetaPath2Vec.В алгоритме случайное блуждание контролируется последовательностью типов, чтобы ходить только между определенными типами.Конечно, вероятность блуждания также может быть уменьшена в соответствии с бизнес-характеристиками. Основной процесс выглядит следующим образом:

3. Наконец

Знания — это преимущество людей перед машинами. Сегодня, с развитием глубокого обучения, ИИ может эффективно и точно выполнять различные конкретные задачи с помощью большого количества контролируемых данных во многих областях.

Тем не менее, различные модели, такие как глубокое обучение, по-прежнему не могут осуществлять универсальное накопление знаний, ассоциацию, рассуждения и воображение, как люди.Возможно, графы знаний станут крыльями следующего скачка ИИ; по сути, исследования в области встраивания графов и Нейронные сети графа появились в последнее время. За последние несколько лет он постепенно стал горячей темой на саммитах по искусственному интеллекту.

Эта статья основана на реальном бизнес-фоне проекта интернет-сервиса OPPO и представляет несколько связанных технологий встраивания изображений, надеясь сыграть роль в привлечении новых идей.