Эта статья подготовлена технической командой OPPO Internet, укажите автора для перепечатки. В то же время приглашаем обратить внимание на нашу общедоступную учетную запись: OPPO_tech, чтобы поделиться с вами передовыми интернет-технологиями и деятельностью OPPO.
1. Предпосылки
1.1 Что такое встраивание изображений
Встраивание графов — это технология, использующая атрибуты узлов и топологические отношения между узлами для векторизации сложных и многомерных данных графа.
Структура данных графа преодолевает ограничения традиционных баз данных для организации данных по записям и обеспечивает более гибкие возможности моделирования реальных данных. Как разумно представить информацию в структуре данных графа и легко применить ее к последующим задачам, стало проблемой.
В последние годы, с ростом популярности технологии предварительно обученных векторов слов в области НЛП, встраивание графов, то есть векторизация данных графов, становится все более активной областью исследований.
1.2 Векторизация графических данных
① Могут выполняться последующие вычисления, такие как вычисления похожих/связанных узлов и интеллектуальный анализ графических данных, распространяющиеся на модули расширения бизнес-интересов с рекомендациями по содержанию и предсказание соединения;
② Также можно кодировать знания, содержащиеся в графических данных, в сеть глубокого обучения и участвовать в расчете понимания текста, изображений, потокового мультимедиа и другого контента.
В этой статье команда интернет-технологов OPPO кратко представляет три подхода к расчету встраивания графов на основе характеристик данных в области графов знаний.
1.3 Особенности данных графа общих знаний
① Отношения: будут отношения между узлами (называемые сущностями в графе знаний), такие как общие друзья, участвующие работы и тип атрибуции работы;
②Атрибуты: каждый узел будет иметь различные атрибуты, например, персонажи будут иметь основную информацию, описание фона и другие атрибуты;
③Тип: на карте будут такие типы, как персонажи, работы, бренды и достопримечательности.
2. Метод
2.1 node2vec
Для связи в данных графа Б. Пероцци и др. предложили модель DeepWalk, которая открыла прецедент для встраивания графа случайного блуждания.
Основная идея DeepWalk заключается в следующем:
Произвольно выберите узлы в графе, случайным образом пройдитесь по отношениям в графе, преобразуйте данные графа в последовательность, подобную естественному языку, а затем используйте поле word2vec НЛП (обработка естественного языка) для построения смежности узлов в графе. sequence.modulo, а затем получить вектор каждого узла.
Есть проблема с DeepWalk: блуждание является полностью случайным и не может быть изменено в соответствии с характеристиками сети (такими как веса отношений).
Адитья Гровер и др. предложили для этой задачи алгоритм node2vec, который управляет распределением вероятностей следующего прыжка случайного блуждания по двум параметрам p/q.
2.2 ANRL
Исследователи предложили множество методов для атрибутов в графе, которые не разбиты на отношения (например, описания и другие атрибуты с очень низкой степенью разделения и другие). В этой статье выбирается один из ANRL для представления;
ANRL был предложен Zhen Zhang и др. Идея заключается в следующем:
Через сеть с двумя целями атрибуты узла и взаимосвязи моделируются соответственно, а окончательный вектор встраивания графа ограничивается данными обучения атрибутов и взаимосвязей, и получается вектор встраивания графа, который объединяет информацию об атрибутах и взаимосвязях.
2.3 Metapath2Vec
Графы знаний обычно охватывают несколько областей, особенно графы общих знаний, где типы узлов еще более разнообразны. В дополнение к сущностям, которые имеют в них реальное значение, также будут некоторые узлы для свойств. (например, страна)
Разные типы узлов имеют разные характеристики: например, у страны может быть региональное отношение к фильму, национальная принадлежность к звезде, аттракцион к аттракциону, а истребитель к происхождению.
Следовательно, случайные блуждания различных типов узлов по одним и тем же правилам сопряжены с неотъемлемыми проблемами.
На самом деле случайное блуждание node2vec имеет тенденцию к смещению к узлам с большими степенями Кроме того, нам также необходимо изолировать узлы в разных полях в разной степени в соответствии с бизнес-сценариями.
Yuxiao Dong и др. предложил алгоритм MetaPath2Vec.В алгоритме случайное блуждание контролируется последовательностью типов, чтобы ходить только между определенными типами.Конечно, вероятность блуждания также может быть уменьшена в соответствии с бизнес-характеристиками. Основной процесс выглядит следующим образом:
3. Наконец
Знания — это преимущество людей перед машинами. Сегодня, с развитием глубокого обучения, ИИ может эффективно и точно выполнять различные конкретные задачи с помощью большого количества контролируемых данных во многих областях.
Тем не менее, различные модели, такие как глубокое обучение, по-прежнему не могут осуществлять универсальное накопление знаний, ассоциацию, рассуждения и воображение, как люди.Возможно, графы знаний станут крыльями следующего скачка ИИ; по сути, исследования в области встраивания графов и Нейронные сети графа появились в последнее время. За последние несколько лет он постепенно стал горячей темой на саммитах по искусственному интеллекту.
Эта статья основана на реальном бизнес-фоне проекта интернет-сервиса OPPO и представляет несколько связанных технологий встраивания изображений, надеясь сыграть роль в привлечении новых идей.