Знания, извлеченные из контрастных ссылок: классификация узлов графа без передачи сообщений

Оригинальный адрес:Eat020031308.GitHub.IO/papers/2021…

В этой статье извлекаются знания из краев графовых сетей, что позволяет MLP достигать производительности GNN в задачах классификации узлов графа. Нет передачи сообщений, нет матрицы смежности, обучения на наборах ребер, поэтому он занимает мало места и быстро классифицируется.

Кроме того, авторы также извлекли информацию об «обратных ребрах» из случайных пар точек, еще больше улучшив производительность модели.

метод

Разветвленный МЛП

Обычный подход графовой нейронной сети (GNN) основан на модели передачи сообщений, в которой сообщения, передаваемые соседними узлами, используются для помощи в классификации центрального узла. Тогда, с другой стороны, любой узел должен содержать некоторую информацию о его соседних узлах.

Поэтому строится раздвоенный MLP: от предпоследнего слоя MLP разветвляется другой выходной слой, который называется «слоем вывода», чтобы отличить его от исходного выходного слоя. Раздвоенный MLP принимает характеристики узла в качестве входных данных и выводит распределение меток узла и его соседей.

Ссылка Дистилляция

установить в любую сторону $(v_i, v_j)$ ,узел $v_i$ и $v_j$ характеризуются $x_i$ и $x_j$ , полученный разветвлением MLP $z_i, s_i$ и $z_j, s_j$ , метка узла $y_i$ и $y_j$ .

Тогда по конструкции разветвленного МЛП можно сделать $z_i$ и $s_j$ Подход $y_i$ ,позволять $z_j$ и $s_i$ Подход $y_j$ , минимизировать их кросс-энтропию. При этом пусть $z_i$ Подход $s_j$ ,позволять $z_j$ Подход $s_i$ , сводя к минимуму их ошибку (MSE). Первое представляет собой обычное обучение под наблюдением, а второе можно рассматривать как дистилляцию самопознания.

边蒸馏

Контрастная дистилляция случайных пар точек

Если случайным образом выбрана пара узлов, пара узлов не может (с высокой вероятностью) быть получена друг из друга с помощью разветвленного MLP. Поэтому идея контрастного обучения используется для максимизации кросс-энтропии между меткой одного узла и выходом слоя вывода другого узла, при этом максимизируя выход выходного слоя одного узла и выход уровень вывода другого узла.

逆边的对比蒸馏

Два режима классификации

После того, как разветвленный MLP обучен, уровень рассуждений может быть отброшен и изменен обратно на классическую структуру MLP, а функции узлов могут быть введены для классификации узлов. Эта модель называется CoLinkDistMLP и LinkDistMLP в зависимости от того, выполняется ли контрастивная дистилляция на обратном ребре.

Кроме того, уровень рассуждений также может быть сохранен, а выходные данные могут быть добавлены к соседним узлам для повышения точности классификации соседних узлов. Но таким образом, это эквивалентно повторному использованию режима передачи сообщений. Эта модель называется CoLinkDist и LinkDist в статье в зависимости от того, следует ли выполнять контрастную дистилляцию на обратном ребре.

эксперимент

Эксперименты по индуктивной, трансдуктивной и полностью контролируемой классификации узлов были выполнены на 8 широко используемых наборах графических данных.Помимо MLP и GCN, эталоном для сравнения был GCN2MLP, который представляет MLP, извлеченный из обученной модели GCN.

Полууправляемый, индуктивный:

semi-supervised and inductive

Полууправляемый, трансдуктивный:

semi-supervised and transductive

Полностью контролируемый (трансдуктивный):

full-supervised

Результаты экспериментов

Даже LinkDistMLP близок или даже превосходит производительность GCN, что указывает на то, что обученный таким образом MLP действительно может достичь эффекта GNN.
Использование передачи сообщений и контрастной дистилляции может еще больше улучшить эффект модели.
GCN2MLP работает лучше, чем GCN, при частичном контроле, но при полном контроле не так много информации для дистилляции, а конечная производительность аналогична MLP.

Кроме того, набор данных Open Graph Benchmark используется для экспериментов по классификации узлов.

OGB