Исследование капсульной сети в текстовой классификации

Приветствую всех вОблако Tencent + сообщество, получить больше крупной технической практики Tencent по галантерее ~

Эта статья взята из колонки «облако + сообщество».Язык, знания и искусственный интеллект,авторЛаборатория Tencent Живэнь

Методы моделирования текста можно условно разделить на две категории: (1) игнорирование порядка слов и поверхностное семантическое моделирование текста (репрезентативные модели включают LDA, расстояние Earth Mover и т. д.); (2) учет порядка слов, глубокое семантическое моделирование текста ( Алгоритмы глубокого обучения, репрезентативные модели включают LSTM, CNN и т. д.) Для алгоритмов глубоких нейронных сетей пространственные шаблоны объединяются на нижних уровнях, чтобы помочь представить концепции более высокого уровня.Например, обнаружение сверточных функций CNNCNN извлекает шаблоны из локальных последовательных окон и использует максимальное объединение для выбора наиболее очевидных признаков. Затем CNN иерархически извлекает шаблоны признаков на разных уровнях. Однако, когда CNN моделирует пространственную информацию, необходимо реплицировать детекторы, что снижает эффективность модели. Как показано ( Sabour et al, 2017), количество повторяющихся детекторов признаков или количество помеченных обучающих данных, необходимых для таких методов, зависит от размерности данных. с сохранением информации о местоположении слова, семантической информации, грамматических структур и т. д.), и им не хватает текстовой выразительности.

Недавно г-н Хинтон и др. предложили капсульную сеть, которая заменяет один нейронный узел традиционной нейронной сети нейронным вектором и использует динамическую маршрутизацию для обучения этой новой нейронной сети, что эффективно устраняет недостатки двух вышеупомянутых методов. Как и в процессе рассуждения зрительной системы человека, можно интеллектуально смоделировать отношения часть-целое, автоматически обобщая полученные знания для различных новых сценариев.

Пока нет работы по применению капсульных сетей к обработке естественного языка (например, к классификации текста). Мы провели углубленное исследование применения капсульной сети для задач классификации текста. Для традиционных задач классификации капсульная сеть обеспечивает лучшую производительность (мы экспериментировали на 6 бенчмарках, капсульная сеть добилась наилучших результатов в 4 из них).Что еще более важно, в задаче переноса с несколькими метками (от классификации текста с одной меткой к классификации текста с несколькими метками) производительность капсульной сети намного превышает производительность CNN и LSTM.. Наша работа была опубликована на arxiv под названием «Исследование капсульных сетей с динамической маршрутизацией для классификации текста». Для получения более подробной информации перейдите по ссылке: https://arxiv.org/pdf/1804.00538.pdf. Мы откроем исходный код после публикации статьи.

Текст в основном изучает применение капсульной сети в задачах классификации текста.Структурная схема модели выглядит следующим образом:

Среди них два последовательных сверточных слоя используют динамическую маршрутизацию вместо операции объединения. Конкретные детали динамической маршрутизации заключаются в следующем:

В процессе маршрутизации многие капсулы относятся к фоновым капсулам, которые не имеют ничего общего с капсулами конечной категории, например, стоп-слова в тексте, слова, не зависящие от категории, и т. д. Поэтому мы предлагаем три стратегии для уменьшения влияния фоновых или шумовых капсул на сеть.

Категория «сирота»: на последнем уровне капсульной сети мы вводим категорию «сирота», которая может фиксировать некоторые базовые знания, такие как стоп-слова. Добавление категории Orphan в визуальные задачи имеет ограниченный эффект, потому что фон изображения часто меняется в обучающих и тестовых наборах. Однако в текстовых задачах стоп-слова более последовательны, например, сказуемые и местоимения.
Leaky-Softmax: Помимо введения категории Orphan в последнем слое, непрерывные сверточные слои в середине также должны ввести механизм шумоподавления. По сравнению с категорией Orphan, Leaky-Softmax представляет собой облегченный метод обезвоживания, не требующий дополнительных параметров и вычислений.
Коррекция параметров маршрутизации: Традиционные параметры маршрутизации обычно инициализируются с выравниванием и распределением, игнорируя вероятность капсул нижнего уровня. Вместо этого мы принимаем вероятность капсулы нижнего уровня как априорную для параметров маршрутизации, чтобы улучшить процесс маршрутизации.

В тесте на удаление мы сравниваем улучшенную трассировку с исходным методом трассировки следующим образом:

Кроме того, чтобы улучшить производительность текста, мы вводим две сетевые структуры, а именно:

Наборы данных: чтобы проверить эффективность модели, мы тестируем ее на 6 текстовых наборах данных, детали следующие:

В экспериментах мы сравнивали некоторые алгоритмы классификации текста с лучшей производительностью. Поскольку основное внимание в этой статье уделяется изучению того, улучшена ли капсульная сеть по сравнению с существующими алгоритмами классификации (например, LSTM, CNN), мы не использовали ее для сравнения с моделями со слишком сложными сетевыми структурами. Результаты эксперимента следующие:

также,Мы фокусируемся на экспериментах по переносу нескольких этикеток. Мы используем образцы с одной меткой в наборе данных Rueter-21578 в качестве обучающих данных и тестируем набор тестовых данных, содержащий только образцы с несколькими метками и стандартный набор тестовых данных соответственно. Подробная статистика и экспериментальные результаты показаны на рисунке ниже. Из таблицы видно, что когда мы обучаем модель на данных с одной меткой и тестируем ее на данных с несколькими метками, производительность капсульной сети намного выше, чем у LSTM, CNN и т. д.

Кроме того, мы также провели анализ тематического исследования и обнаружили, что параметры маршрутизации могут отражать важность капсул, и визуализировали капсулы (здесь мы в основном визуализируем результаты 3-грамм). В частности, мы удаляем сверточный капсульный слой и напрямую связываем первичный капсульный слой с полносвязным капсульным слоем, где первичная капсула представляет форму фразы N-граммы в капсуле, а сила связи между капсулами представляет каждый первичный слой. Важность капсулы в этой категории (сравните механизмы параллельного внимания). Из рисунка видно, что для категории процентной ставки важную роль играют 3 грамма, такие как месячная межбанковская ставка.

Благодарности: Спасибо jhui и Su Jianlin, чьи статьи вдохновили нас на работу. Спасибо naturomics и gyang274 за открытый исходный код, который сделал наш процесс разработки эффективным.

https://jhui.github.io/2017/11/14/Matrix-Capsules-with-EM-routing-Capsule-Network/

https://spaces.ac.cn/archives/4819

https://github.com/bojone/Capsule

https://github.com/naturomics/CapsNet-Tensorflow

вопросы и ответы

Роль смещения в нейронных сетях?

Связанное Чтение

Попытка и исследование извлечения ключевых слов из игрового текста

Применение глубокого обучения в обработке естественного языка

Визуализируйте CapsNet и объясните концепцию и принцип капсулы, предложенные Hinton et al.

Эта статья была разрешена автором для публикации сообщества Tencent Cloud +, исходная ссылка: https://cloud.tencent.com/developer/article/1145655?fromSource=waitui.

Приветствую всех вОблако Tencent + сообществоИли обратите внимание на общедоступную учетную запись WeChat сообщества Yunjia (QcloudCommunity) и как можно скорее получите больше массовой технической практики галантерейных товаров ~