автор
Юфэн Чжан1∗, Сюэли Юй 1∗, Цзэюй Цуй, Шу Ву, Чжунчжэнь Вэнь и Лян Ван
Обзор
Графовые нейронные сети (GNN) недавно стали применяться для классификации текстов. Однако существующие модели не могут ни фиксировать контекст в каждом документе, ни хорошо выполнять индуктивное изучение новых слов. В этой работе авторы строят отдельные графики для каждого документа, индуктивно изучая текст с помощью TextING. Авторы провели обширные эксперименты с четырьмя эталонными наборами данных, и эксперименты показали, что этот метод превосходит современные методы классификации текста.
мотивация
Классификация текста обеспечивает фундаментальный подход к другим задачам NLP, таким как анализ настроений, обнаружение намерений и т. д. Традиционные методы классификации текста включают наивный байесовский метод, k-ближайших соседей и метод опорных векторов. Тем не менее, они в основном полагаются на функции ручной работы в ущерб трудоемкости и эффективности.
В ответ на эту проблему были предложены различные методы глубокого обучения, из которых рекуррентная нейронная сеть (RNN) и сверточная нейронная сеть (CNN) являются наиболее основными. Тем не менее, все они сосредоточены на локальности слов и, таким образом, не имеют дальних, непоследовательных взаимодействий слов.
В последние годы для решения этой проблемы стали использовать методы на основе графов, которые рассматривают текст не как последовательность, а как набор совместно встречающихся слов. Однако эти основанные на графах методы имеют два основных недостатка. Во-первых, контекстно-зависимые отношения слов в каждом документе игнорируются. Во-вторых, из-за глобальной структуры во время обучения должны присутствовать тестовые файлы. Следовательно, они по своей сути являются преобразующими и трудными для проведения индуктивного обучения.
Модель
В данной статье автор предлагает метод классификации текста на основе графовой нейронной сети TextING (Inductive Text Classification via Graph Neural Networks). В отличие от предыдущих глобальных графовых методов, основанных на структуре, авторы обучают GNN, который использует только учебные документы для описания подробных отношений между словами и обобщает новые документы при тестировании. В этой модели каждый документ представляет собой независимую карту топологии, и можно изучать отношения слов на уровне документа. В то же время модель можно применять и к новым словам, которые не появились в процессе обучения.
Модель состоит из трех ключевых частей: построение графа, взаимодействие слов на основе графа и функция чтения. Архитектура показана на рисунке ниже.
(1) Построение графа. Автор использует скользящее окно длины 3, чтобы изучить взаимосвязь совпадений между словами, и строит карту топологии для каждого документа.
(2) Взаимодействие слов на основе графа Автор использует нейронную сеть GGNN с закрытым графом, чтобы изучить встраивание слова в документ.
(3) Функция считывания получает представление признаков каждого узла в документе через два многоуровневых MLP персептрона, а затем вычисляет представление признаков всего графа через эти узлы, то есть представление признаков документа.
Авторы также предлагают вариант модели TextING-M. Авторы комбинируют локальные и глобальные графики, обучают их по отдельности, а затем используют соотношение 1:1, чтобы сделать окончательные прогнозы. Эта модель не может выполнять индуктивное обучение, поэтому автор сосредоточился на изучении того, могут ли они дополнять друг друга с микро- и макроэкономической точки зрения.
эксперимент
Автор делит обучающую выборку и проверочную выборку в соотношении 9:1. Скорость обучения составляет 0,01, отсев равен 0,5, а начальное представление признака слова — GloVe с размерностью 300. Для объективного сравнения другие базовые модели имеют такое же вложение, а экспериментальные результаты показаны в таблице ниже.
Значением является точность классификации.Автор провел десять экспериментов, а положительные и отрицательные - колебания этих опытов. Видно, что в каждой задаче TextING — лучший результат. Среди них в задаче MR эффект от TextING лучше, чем от TextGCN, потому что в MR эти комментарии представляют собой короткие тексты, в результате получается граф с низкой плотностью в textGCN, который ограничивает передачу сообщений меток между документами. nodes , но отдельный граф TextING не полагается на этот механизм обмена сообщениями меток.