[Серия диаграмм знаний] Модель GCNII исследует проблему чрезмерного сглаживания DeepGNN

алгоритм
[Серия диаграмм знаний] Модель GCNII исследует проблему чрезмерного сглаживания DeepGNN
> 作者:CHEONG
> 公众号:AI机器学习与知识图谱
> 研究方向:自然语言处理与知识图谱

Совместное использование GCNII (ICML 2020), весь процесс GCNII: Граф сверточных сетей с помощью начального остатка и сопоставления идентичности

1. Мотивация

существуеткомпьютерное зрениеСреди них модель CNN может изучать более глубокую информацию о функциях по мере углубления ее уровня.Очень нормально складывать 64 или 128 слоев, и это может дать лучшие результаты, чем более мелкие слои.

Графовые сверточные нейронные сети (GCN) — это метод глубокого обучения для структурированных графом данных, но большинство текущих моделей GCN неглубокие, такие как модели GCN и GAT. Эффект модели будет значительно снижен. После исследования GCN будет имеют проблему Over-Smoothing с углублением уровня модели, Over-Smoothing, соседние узлы будут становиться все более и более похожими по мере углубления сети, и окончательно изученное встраивание узлов не сможет различить.

На приведенном выше рисунке по мере углубления уровня модели Точность теста на данных Cora постепенно снижается, а количественная метрика гладкости даетOver-smoothnessпридумать количественный показательSVM_ , как показано в следующей формуле:

[公式]измеряет расстояние между любыми двумя узлами в графеЕвклидово расстояниеСумма,[公式]Меньшее значение при обучении на графеOver-SmoothingЧем серьезнее, когда[公式]При , все узлы в графе точно такие же, а также из графика видно, что с углублением уровня,[公式]Значение становится все меньше и меньше.

2. Метод

Чтобы решить проблему чрезмерного сглаживания GCN в глубоких слоях, GCNII предложилInitial ResidualиIdentit MappingДва простых трюка успешно решают проблему чрезмерного сглаживания, когда GCN глубок.

1,Initial residual

Остаток всегда был одним из наиболее часто используемых методов для решения чрезмерного сглаживания, Традиционный GCN плюс остаточное соединение выражается как:

GCNII Initial Residual получает информацию не от предыдущего слоя, а от начального слояостаточное соединениеи установите полученный вес. Здесь начальное представление начального слоя не является исходным входным объектом, а получено линейным преобразованием входного объекта, как показано в следующей формуле:

Начальный остаточный GCNII, но не первый раз, но ICLR 2019 модель Appnp предложил.

2. Картирование личности

Только использование остатков может только облегчить проблему чрезмерного сглаживания, поэтому GCNII опирается на идею ResNet и имеет Identity Mapping, Идея начального остатка состоит в том, чтобы выбрать веса между представлением текущего слоя и представлением начальный слой, а Identity Mapping — параметр W иединичная матрицаУстановите выбор веса между I, как показано в следующей формуле:

Как видно из приведенной выше формулы, первая половина — Initialresidual, а вторая половина — IdentityMapping, где α и β — суперпараметры. В документе GCNII также объясняется, почему IdentityMapping может облегчить проблему чрезмерного сглаживания DeepGNN, В итоге: IdentityMapping может ускорить модельскорость сходимости, уменьшить потерю эффективной информации.

3. Заключение

1. Экспериментальные данные

В эксперименте три данных о цитировании Cora, Citeseer и Pubmed представляют собой однородные графические данные, которые часто используются в задачах Transductive Learning. Три типа данных состоят из следующих восьми файлов с аналогичными форматами хранения:

2. Экспериментальные результаты

Экспериментальные результаты проводятся на трех данных Cora, citeseer и pubmed.Результаты тестирования показывают, что с углублением сетевого уровня модель не только не имеет Over-Smoothing, как традиционный GNN, но и эффект модель уменьшается с глубиной, и постоянное улучшение решает проблему чрезмерного сглаживания традиционного DeepGNN.