Аннотация: В этой статье предлагается архитектура графовой сверточной сети, основанная на сохранении локальных признаков.По сравнению с последними алгоритмами сравнения, производительность классификации графов этого метода на нескольких наборах данных значительно улучшена, а также улучшена производительность обобщения.
Эта статья опубликована в сообществе HUAWEI CLOUD.«Интерпретация статьи: архитектура сверточной нейронной сети графа на основе сохранения локальных признаков (LPD-GCN)», оригинальный автор: PG13.
В последние годы многие исследователи разработали множество методов на основе сверточных сетей графов для приложений обучения и классификации представлений на уровне графов. Однако современные методы сверточной сети графов не могут эффективно сохранять локальную информацию графов, что особенно важно для задач классификации графов, где цель классификации графов состоит в том, чтобы различать различные структуры графов на основе их изученных представлений на уровне графа. Для решения этой проблемы в данной статье предлагается архитектура графовой сверточной сети, основанная на сохранении локальных признаков [1]. По сравнению с современными алгоритмами контрастирования предложенный метод значительно повышает производительность классификации графов на нескольких наборах данных, а также улучшается производительность обобщения.
1. Введение
Графические (сетевые) структурированные данные могут быть смоделированы узлами в графе и ребрами, соединяющими узлы, для сбора обширной информации между сущностями и сущностями. Данные о структуре графа широко используются во многих областях исследований, включая биологию (сеть межбелковых взаимодействий), химию (молекулярная структура/структура соединения), социальные науки (социальная сеть/сеть цитирования документов) и многие другие области исследований. Графически структурированные данные не только позволяют эффективно хранить структурированную информацию, но и играют чрезвычайно важную роль в современных задачах машинного обучения. Среди многих задач машинного обучения классификация графов является важной задачей, которая широко изучается в последние годы. Цель классификации графов состоит в том, чтобы отнести данный граф к определенному классу. Например, чтобы различать различные графовые структуры органических молекул в химии, необходимо вывести и агрегировать всю топологию графа (в молекулярных сетях топология состоит из отдельных атомов и их прямых связей), а также особенности узлов (такие как как атомарные свойства) и использовать полученную и агрегированную информацию для прогнозирования класса графа.
В последние годы многие методы, направленные на решение задач классификации графов, были опубликованы на международном уровне. Традиционный и популярный метод заключается в разработке функции ядра графа для вычисления сходства между графами, которая затем вводится в классификатор на основе ядра (такой как SVM) для задач классификации графов. Хотя методы на основе ядра графа эффективны, существуют вычислительные узкие места, и процесс выбора признаков отделен от последующего процесса классификации. Для решения вышеуказанных проблем все большее внимание исследователей привлекают подходы сквозной графовой нейронной сети. Среди них графовые сверточные нейронные сети (GCN) являются наиболее популярным классом методов графовых нейронных сетей для решения задач классификации графов. Современные графовые сверточные нейронные сети примерно соответствуют структуре нейронной сети передачи сообщений (MPNN) [2]. Структура состоит из двух частей:этап передачи сообщенияиэтап считывания.Этап передачи сообщения заключается в обновлении вектора признаков каждого узла путем агрегирования признаков соседства узлов, а этап считывания заключается в создании всего графа посредством модуль глобального пула.функции уровня. Сверточные нейронные сети графов используют функцию передачи сообщений для итеративного выполнения операций свертки графов, позволяя информации об объектах распространяться на большие расстояния, позволяя изучать особенности соседства в разных масштабах. После k раз операций свертки графа могут быть извлечены полезные функции узлов или ребер для решения многих задач анализа на основе узлов и ребер (например, классификация узлов, прогнозирование ссылок и т. д.). Для решения задач на уровне графа (таких как классификация графа) модуль считывания должен собирать информацию о глобальных узлах или локальных структурах для создания представлений на уровне графа. На следующем рисунке представлена общая структура сверточных нейронных сетей графов для задач классификации графов. На основе существующих сред передачи сообщений многие исследователи разработали множество вариантов графовых сверточных нейронных сетей с различными функциями передачи сообщений, функциями обновления узлов и модулями считывания.
Однако основным ограничением существующих методов на основе графовой сверточной нейронной сети является то, что методам графовой сверточной нейронной сети для обучения представлению на уровне графа не хватает эффективного использования информации о локальных признаках. Другими словами, они чрезмерно подчеркивают способность различать различные структуры графа, игнорируя при этом способность узлов к локальному выражению, что легко приводит к проблеме чрезмерного сглаживания (представление признаков каждого узла имеет тенденцию к согласованности), особенно когда слои нейронной сети углубляются. Проблема чрезмерного сглаживания станет более серьезной. Это связано с тем, что в процессе агрегации локального соседства информация о признаках соседства не дифференцируется и не идентифицируется эффективно, так что способность локального выражения изученных узловых признаков не является сильной в сочетании с влиянием чрезмерного сглаживания, которое значительно ограничивает глобальные возможности представления объектов на уровне графа. Как мы все знаем, представление на уровне графа получается путем агрегирования локальных характеристик узлов, поэтому то, как поддерживать локальную выразительность в процессе оптимизации, является ключевой предпосылкой для улучшения возможностей представления графа. Стремясь к цели обучения представлению на уровне графа, существующие методы исследования для сохранения локальной выразительности признаков можно условно разделить на три фракции: (1) разработка различных операций свертки графа и операций считывания, (2) разработка методов иерархического класса агрегации, ( 3) изучение новых архитектур моделей. В первой фракции Сюй и др. обнаружили, что представления на уровне графа, изученные на основе методов в существующих структурах передачи сообщений, неэффективны для различения различных структур графа, и они предложили графовую изоморфную сетевую модель (GIN) [3]. Изоморфная сеть графа использует метод инъективного совокупного обновления для сопоставления разных соседей узлов с разными векторами признаков. Это сохраняет локальную структуру и особенности узлов графа, делая нейронную сеть графа такой же эффективной, как тест Вейсфейлера-Лемана. Фан и др. предложили структурированную архитектуру самоконтроля, аналогичную Graph Attention Networks (GAT) [4] для обучения представлению на уровне графа, где механизм внимания, ориентированный на узлы, будет иметь разные обучаемые веса.Функции соседних узлов объединяются вместе, а механизм иерархического внимания и механизм внимания на уровне графа используются в качестве модулей считывания модели, которые могут объединять важные функции из разных узлов и разной глубины в выходные данные модели. Во второй фракции, то есть в методах иерархической кластеризации, многие исследовательские работы доказали, что графы отображают другие богатые иерархии в дополнение к дихотомии между узлами или структурами уровня графа. Например, в недавней передовой работе был предложен DIFFPOOL [5], метод дифференцируемого иерархического объединения, который можно обучать совместно со свертками графа, который можно использовать для извлечения информации о локальных функциях.
В целом, вышеупомянутые два типа методов для задач классификации графов могут хорошо подходить для большинства обучающих наборов данных, но их способность к обобщению очень ограничена, а их производительность на тестовом наборе посредственная, что затрудняет преодоление узких мест существующих методов. . В то время как в третьей категории, которая предназначена для изучения новых архитектур моделей, некоторые исследователи пытаются решить практические трудности или проблемы чрезмерного сглаживания, которые существуют при обучении сверточных нейронных сетей графа. Например, Сюй и др. [6] предложили архитектуру пропускающей сети знаний (JK-Net) для соединения последнего сверточного слоя графа сети со всеми предыдущими скрытыми слоями, структуру, аналогичную остаточной сети. При таком дизайне последний уровень модели может выборочно использовать информацию о соседстве из разных предыдущих слоев, так что представление на уровне узла можно хорошо зафиксировать за фиксированное количество операций свертки графа. Особенно с увеличением глубины сети влияние остаточной связи на модель становится более заметным. Было показано, что такие структуры пропуска значительно улучшают производительность модели в задачах, зависящих от узла, но лишь немногие исследователи исследовали их эффективность в задачах на уровне графа, таких как классификация графов. В GIN Сюй и др. далее предлагают архитектуру модели, аналогичную JK-Net, для изучения представлений на уровне графа. За архитектурой следует слой считывания для каждого сверточного слоя, чтобы изучить представления на уровне графа на разной глубине, которые затем объединяются вместе для формирования окончательного представления. Эта архитектура считывания учитывает глобальную информацию на всех глубинах и может эффективно улучшить способность модели к обобщению.
2. Граф сверточной нейронной сети (GCN)
(1) Определение проблемы
Для неориентированного графа G = {V, E} V — множество узлов, а E — множество ребер. Кроме того, используйте Xv для представления начальных функций каждого узла. Целью сверточных нейронных сетей графа является изучение непрерывных представлений произвольных экземпляров графа для кодирования функций узлов и топологии. Предполагая, что задан набор графов G = {G1, G2, ..., GM} с M метками и Y = {y1, y2, ..., yM}, соответствующий каждому графу, классификация графов используйте их в качестве обучающих данных для построения классификатора gθ, который может сопоставить любой новый вход графа G с некоторым конкретным классом yG, т. е. yG = gθ(hG).
(2) Граф сверточной нейронной сети
GCN учитывают как структурную информацию графа, так и информацию о функциях каждого узла в графе, чтобы изучить представления функций на уровне узла и / или на уровне графа, которые могут лучше всего помочь в окончательной задаче. Вообще говоря, существующие варианты GCN сначала собирают информацию о соседстве, а затем комбинируют полученное представление соседства с представлением центрального узла из предыдущей итерации. Формально GCN итеративно обновляет представление узлов по следующей формуле:
в
представляет собой представление признаков узла v на k-й итерации. И AGGREGATE(), и COMBINE() являются обучаемыми функциями передачи информации для k-го сверточного слоя графа. N(v) представляет набор смежных узлов узла v. Как правило, после K шагов итерации окончательное представление узла может быть
Примените прогнозирование метки узла или перейдите к этапу считывания, на котором выполняется классификация графа. На этапе считывания вычисляется вектор признаков hG для всего графа путем агрегирования узловых признаков с использованием определенной функции считывания READOUT():
Функция READOUT() может быть простой инвариантной функцией перестановки, такой как функция суммирования; она также может быть операцией объединения на уровне графа, такой как DIFFPOOL, SORTPOOL.
3. Введение метода
Чтобы решить проблему недостаточной способности сохранения локальной информации и способности к обобщению существующих методов, в этой статье улучшаются функция потерь и архитектура модели, а также предлагается модель LPD-GCN. Хорошо известно, что GCN изучают представления всего графа на уровне графа, используя особенности топологии и узлов графа. С точки зрения потерь, чтобы в полной мере использовать и изучить информацию о функциях узлов, LPD-GCN создает дополнительные задачи реконструкции функций локального узла, чтобы улучшить способность локального представления представлений скрытых узлов и улучшить различительную способность конечных представлений на уровне графа. . То есть добавляется дополнительное вспомогательное ограничение для сохранения локальной информации графа. Эта задача реконструкции признаков узла достигается за счет разработки простого, но эффективного механизма кодировщик-декодер, в котором в качестве кодировщиков используются сложенные несколько сверточных слоев графа, а затем для последующего декодирования добавляется многоуровневый персептрон (MLP). Таким образом, входные признаки узла могут быть встроены в скрытое представление через кодировщик, а затем эти векторные представления могут быть введены в декодер для восстановления исходных узловых признаков. С точки зрения архитектуры модели мы сначала исследуем и разработаем архитектуру свертки графа с плотной связью, чтобы установить отношения связи между различными уровнями, чтобы гибко и в полной мере использовать информацию из окрестностей в разных местах. В частности, каждый сверточный слой и соответствующий ему модуль считывания объединяются со всеми предыдущими сверточными слоями.
(1) Реконструкция признаков узла на основе механизма кодирования-декодирования
Представление на уровне графа и дискриминационные возможности традиционных GCN ограничены чрезмерным уточнением и глобализацией, игнорируя сохранение локальных особенностей, что может привести к проблемам чрезмерного сглаживания. LPD-GCN содержит простой механизм кодирования-декодирования для восстановления локальных признаков, где кодировщик состоит из сложенных сверточных слоев с несколькими графами, а декодер использует многослойные персептроны для восстановления признаков локального узла. В то же время строится вспомогательная потеря реконструкции локальных признаков, чтобы помочь цели классификации графа. Таким образом, функции узлов могут быть эффективно сохранены в скрытых представлениях на разных слоях.
(2) Агрегация соседства на основе DenseNet
Кроме того, чтобы иметь возможность гибко использовать информацию из окрестностей разных слоев, в модель добавляются прямые связи от каждого скрытого сверточного слоя ко всем вышестоящим сверточным слоям и модулям считывания. Такая архитектура примерно соответствует DenseNets. Как мы все знаем, DenseNets предлагаются для решения проблем компьютерного зрения. Эта архитектура позволяет выборочно агрегировать информацию о соседях на разных уровнях и дополнительно улучшает поток информации между уровнями. В DenseNets применяется метод агрегации признаков иерархической конкатенации. LPD-GCN использует метод иерархического накопления признаков.
(3) Представление локального узла на основе восприятия глобальной информации
После введения вспомогательного модуля реконструкции локальных признаков каждый сверточный слой может получить дополнительный контроль для сохранения локальности. Однако такая контролируемая информация не может быть передана обратно для обучения этих модулей глобального считывания. В архитектуре модели в этой главе за каждым сверточным слоем имеется соответствующий глобальный модуль считывания, который сворачивает вложения узлов всего графа в представление на уровне графа. Итак, как мы можем лучше использовать информацию о контроле от реконструкции локальных признаков? Чтобы решить эту проблему, добавляется прямое подключение каждого модуля считывания к следующему слою сверточных модулей, а конкатенация используется для выравнивания объектов уровня узла с глобальными объектами уровня графа. То есть используйте точечную конкатенацию, объединяя каждое представление узла и представление на уровне графа в один тензор. Кроме того, вводится обучаемый параметр ε (> 0) для адаптивного выбора между представлением на уровне локального узла и представлением на глобальном уровне графа.
из которых
. При разработке такой архитектуры в дополнение к информации о градиенте, генерируемой из-за потери основной задачи на уровне графа, другая информация о градиенте может распространяться обратно из-за потерь при реконструкции локальных признаков для обновления параметров чтения, тем самым уменьшая потерю данных. локальное представление Способность рисковать и улучшать способность модели к обобщению. Между тем, представления узлов объединяются с дополнительными глобальными контекстами для формирования глобальных контекстно-зависимых локальных представлений, которые также могут улучшить представление узлов.
(4) Глобальная иерархическая агрегация, основанная на механизме самоконтроля
Большинство существующих методов передают представления узлов, полученные несколькими сверточными слоями графа, в модуль глобального считывания для создания представлений на уровне графа, а модуль считывания генерирует глобальные функции на уровне графа посредством объединения или суммирования. Однако по мере увеличения глубины сети представление узлов может выглядеть слишком гладким, что приводит к низкой общей производительности вывода на уровне графа. Чтобы эффективно извлекать и использовать глобальную информацию на всех глубинах, модель в этой главе дополнительно использует механизм внутреннего внимания для считывания послойных функций на уровне графа в манере, подобной GIN. Интуиция введения механизма самоконтроля, ориентированного на уровни, заключается в том, что различные веса внимания, назначенные каждому слою, могут быть адаптированы к конкретной задаче при создании вывода на уровне графа для конкретной задачи.
(5) Функция потерь
На этапе обучения модель LPD-GCN в этой главе получает информацию о градиенте от основной задачи классификации графа и вспомогательных ограничений реконструкции локальных признаков. Формально LPD-GCN обучается с общей потерей (взвешенной по потерям классификации графа и потерям реконструкции локальных признаков), определенной в следующей формуле.
который выражает
Потеря классификации графа,
представляет потери при реконструкции локальных признаков, а параметр компромисса адаптивно вводится для поиска баланса между двумя условиями потерь.
3. Результаты эксперимента по классификации графов
(1) Набор тестовых данных
В этом посте используются 8 часто используемых наборов графических данных в области нейронных сетей графов, производительность оценивается путем выполнения 10-кратной перекрестной проверки, а также сообщается среднее значение и стандартное отклонение точности теста.
(2) Влияние на тестовый набор
Значительно улучшена производительность классификации нескольких наборов данных, а также улучшена способность к обобщению.
4. Ссылки
[1]WENFENG LIU, MAOGUO GONG, ZEDONG TANG A. K. QIN. Locality Preserving Dense GraphConvolutional Networks with Graph Context-Aware NodeRepresentations. АР Вест V.org/ABS/2010.05…
[2] ГИЛМЕР Дж., ШЕНХОЛЬЦ С. С., РАЙЛИ П. Ф. и др. Нейронная передача сообщений для квантовой химии [C] // Материалы 34-й Международной конференции по машинному обучению: Том 70. 2017: 1263 — 1272.
[3]XU K, HU W, LESKOVEC J, et al. How powerful are graph neural networks?[C] //Proceedings of the 7th International Conference on Learning Representations.2019.
[4]ВЕЛИЧЦКОВИЧ П., КУКУРУЛЛ Г., КАЗАНОВА А. и др. Графические сети внимания[C] //Материалы 6-й Международной конференции по обучающим представлениям.2018.
[5] YING Z, YOU J, MORRIS C и др. Обучение представлению иерархического графа с дифференцируемым объединением [C] // Достижения в системах обработки нейронной информации, 2018: 4800 – 4810.
[6] XU K, LI C, TIAN Y и др. Представление обучения на графах с помощью скачкообразных сетей знаний [C] // Материалы 35-й Международной конференции по машинному обучению, 2018: 5449 – 5458.
Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~