Чему учит BERT: узнайте, почему BERT такой сильный

NLP

Эта статья является шестой частью серии статей Берта.

TinyBert: Модель дистилляции для сверхдетализированных приложений, просто посмотрите на него, если у вас возникнут вопросы о дистилляции.

Технология квантования и динамическое квантование Альберта

DistillBert: Берт слишком дорого? Я дешевый и простой в использовании

[Обмен документами] | RoBERTa: Привет, XLNet здесь? Меня избили

Введение в статью XLNet - за спиной Берта

Управляемое чтение

С момента запуска BERT добился очень хороших результатов в области понимания текста. После этого много работы сосредоточено на самой модели и выводе модели, Мы мало знаем о том, почему предварительно обученная модель может достичь таких хороших результатов. Их знание не только позволяет нам лучше понять модель, но также позволяет нам обнаружить недостатки модели и в то же время помогает нам разработать лучшую модель. Эта статья познакомит вас с двумя статьями, в которых было проведено множество экспериментов с точки зрения анализа синтаксиса и карты внимания, чтобы проанализировать, что делает BERT таким сильным.

What does BERT learn about the structure of language

В этой статье в основном изучается содержание грамматики и синтаксиса, изученных между различными уровнями BERT. В статье используется модель ** bert-base-uncased, всего 12 слоев, скрытый размер 768, всего 12 заголовков внимания. , и всего 110M параметров. ** Авторы разработали 4 различных эксперимента для анализа понимания BERT грамматики и синтаксиса в тексте.

Эксперимент 1: фразовый синтаксис

Сначала автор изучалBERT понимает фразы, автор рассчитывает представление диапазона в результатах вывода разных слоев.Метод расчета заключается в перехвате определенного абзаца текста, а затем склеивании начала и конца абзаца. Затем автор использует t-SNE для демонстрации.

Вывод: С увеличением количества слоев усвоение моделью фразовой информации постепенно разбавляется.

Эксперимент 2: Зондирующие задачи

Задача обнаружения заключается в разработке некоторых конкретных задач классификации (обычно включающих некоторую лингвистическую информацию) и добавлении этих задач в качестве вспомогательных классификаторов к различным выходным уровням BERT, чтобы оценить степень, в которой модель изучает лингвистическую информацию.

В этой статье разработаны 10 задач обнаружения, а именно: SentLen (оценка длины предложения), WC (появляется ли слово в предложении), BShift (чувствительность к порядку слов), TreeDepth (синтаксическое дерево), TopConst (порядок верхнего уровня учебника грамматики). , Tense (грамматическое задание), SubjNum (количество подлежащих), ObjNum (количество дополнений), SOMO (чувствительность к глаголу, замена существительного), CoordInv (случайный обмен союзами кооперативного предложения).

Результаты эксперимента следующие:

Вывод: результаты показывают, что BERT кодирует обширную информацию лингвистического уровня. Поверхностные информационные функции находятся в нижней сети, синтаксические информационные функции — в сети среднего уровня, а семантические информационные функции — в сети высокого уровня.

Лабораторная работа 3: Соглашение между подлежащим и глаголом

Целью согласования подлежащего и глагола является определение того, может ли нейронная сеть правильно кодировать грамматическую структуру. Исследование показало, что прогнозирование количества глаголов становится трудным, когда в предложении больше подлежащих и сказуемых, но вставлены противоположные существительные. Подход в этой части также заключается в разработке вспомогательного классификатора для каждого слоя. Результаты эксперимента таковы: количество столбцов представляет собой среднее расстояние между сбивающими с толку существительными, вставленными между подлежащим и глаголом.

Вывод: результаты показывают, что в большинстве случаев сеть среднего уровня работает лучше, что также подтверждает гипотезу о том, что предыдущая часть синтаксических признаков в основном закодирована в среднем уровне BERT. Кроме того, с увеличением количества вставленных существительных сеть более высокого уровня BERT постепенно способна решать проблему дальней зависимости, и эффект лучше, чем у сети более низкого уровня, что доказывает, что BERT имеет только более глубокое количество слоев В большинстве случаев обработки естественного языка (NLP) Более конкурентоспособный.

Эксперимент 4: Композиционная структура

Автор использует TPDN (сети декомпозиции тензорных продуктов), чтобы выяснить, может ли BERT изучить общую композицию статьи. TPDN объединяет входные символические представления на основе предварительно выбранной ролевой схемы с использованием векторной суммы произведений. Схема слова - это путь от корневого узла к собственному синтаксическому дереву, автору для данного дизайна символа, если модель TPDN может быть хорошо обучена для оценки представления, изученного нейронной сетью, то дизайн символа Это можно определить комбинаторные функции, изученные этой моделью нейронной сети.

Автор разработал 5 различных ролевых схем, слева направо, справа налево, мешок слов, двунаправленный и древовидный. Результаты эксперимента следующие:

Вывод: Сеть высокого уровня BERT изучила структуру синтаксического дерева.

На что смотрит BERT Анализ внимания BERT

В этой статье в основном исследуется интерпретируемость BERT с точки зрения карты внимания, поскольку вес внимания указывает на важность текущего слова при вычислении следующего слова. В этой статье основное внимание уделяется 144 головам внимания BERT, чтобы проанализировать, почему BERT может достичь таких хороших результатов.

Surface-Level Patterns in Attention

Сначала автор получил несколько различных паттернов внимания, визуализируя вес внимания. Как показано на рисунке ниже, часть внимания обращает внимание на все слова (в целом), часть внимания обращает внимание на следующую лексему, часть внимания обращает внимание на символы SEP, а часть внимания обращает внимание на знаки препинания.

Probing Individual Attention Heads

Также автор анализирует влияние BERT на распознавание зависимостей между словами. Что такое отношения зависимости? Мы можем просто понимать это как зависимость между словами и словами, зависимость считает, что «сказуемое» является центром предложения, а другие компоненты прямо или косвенно связаны с глаголом.

Анализируя зависимости между словами, автор обнаружил, чтоBERT не может хорошо обрабатывать все зависимости, но определенные уровни могут лучше идентифицировать конкретные зависимости.

Probing Attention Head Combinations

Автор также разрабатывает классификатор для изучения изучения BERT зависимостей между словами. Судя по экспериментальным результатам, у BERT все еще есть определенное представление о зависимости между английской грамматикой и словами.

Clustering Attention Heads

Учат ли разные головки внимания в одном слое одному и тому же поведению? Чтобы исследовать кластеризацию вывода головы внимания автором этой задачи, результаты кластеризации следующие. Как можно видетьГоловы внимания на одном уровне, как правило, имеют схожие поведенческие характеристики.

Выводы и размышления

В двух вышеприведенных статьях был сделан некоторый анализ BERT с точки зрения грамматики и внимания.Вы можете увидеть в тексте

  1. BERT может изучать лингвистическую информацию, и информация, полученная с помощью глубокого BERT, богаче, чем у поверхностного BERT.
  2. Однако BERT не может полностью изучить лингвистическую информацию в тексте в одном слое, и определенный слой может изучить некоторую конкретную лингвистическую информацию.

Кроме того, я также узнал о более распространенных экспериментах по обнаружению в лингвистике и о том, как использовать более распространенные методы анализа в лингвистике, такие как анализ грамматики, анализ зависимостей и т. д. Это действительно сбивает с толку.

Конечно, эта статья лишь кратко представляет некоторые выводы из двух статей, а также очень подробно знакомит с экспериментальным методом и некоторыми деталями эксперимента. Заинтересованные студенты могут прочитать исходный текст.