Похож ли этот упорядоченный нейрон на знакомую вам рекуррентную нейронную сеть?

Нейронные сети

Выбрано из открытого обзора, составленного сердцем машины,принимать участие:Чжан Си, Ван Шутин.

Основываясь на предыдущих исследованиях моделей RNN, в этой статье предлагается упорядоченный нейрон, который обеспечивает порядок частоты обновления между нейронами скрытого состояния и включает скрытую древовидную структуру в рекуррентную модель. Кроме того, новый модуль RNN, предложенный в этой статье, превосходно справляется с четырьмя задачами: языковое моделирование, неконтролируемый синтаксический анализ компонентов, целевая оценка грамматики и логические рассуждения.

введение

Хотя естественный язык обычно представлен последовательно, базовая структура языка не строго сериализована. Лингвисты сходятся во мнении, что эта структура регулируется набором правил или грамматики (Sandra & Taft, 2014), которые диктуют логику, по которой слова формируют предложения. Независимо от своего проявления, эта структура обычно имеет древовидную форму. Хотя лингвисты открыли этот паттерн, истинное происхождение лежащей в его основе структуры остается неизвестным. Некоторые теории предполагают, что это может быть связано с внутренним механизмом человеческого познания (Chomsky & Lightfoot, 2002). Поскольку искусственные нейронные сети вдохновлены моделями обработки информации и коммуникации биологических нервных систем, эти возможности привели к повышенному интересу к использованию искусственных нейронных сетей для изучения базовой структуры языка.

С практической точки зрения интеграция древовидных структур в языковые модели также важна по следующим причинам:

  1. Способны получать иерархические представления с возрастающими уровнями абстракции, что также является ключевой особенностью глубоких нейронных сетей (Bengio et al., 2009; LeCun et al., 2015; Schmidhuber, 2015);

  2. Улавливание сложных лингвистических явлений, таких как проблемы долгосрочной зависимости (Tai et al., 2015) и композиционные эффекты (Socher et al., 2013);

  3. Обеспечивает быстрый способ обратного распространения градиента (Chung et al., 2016).

В последние годы большое внимание уделяется разработке глубоких нейронных сетей (Shen et al., 2017; Jacob et al., 2018), которые могут использовать знания грамматики или, по крайней мере, некоторую древовидную структуру (Williams et al., 2018; Shi et al., 2018) для формирования лучшего семантического представления; Bowman et al., 2016; Choi et al., 2018; Yogatama et al., 2016).

Простой способ получить древовидную структуру — использовать контролируемый синтаксический анализатор. Древовидные структуры, сгенерированные этими анализаторами, используются для управления композицией семантики слов в семантике предложений (Socher et al., 2013; Bowman et al., 2015) и даже помогают предсказать следующее слово по предыдущим словам (Wu et al., 2017). Тем не менее, контролируемые анализаторы также имеют некоторые ограничения: 1) несколько языков имеют исчерпывающие аннотированные данные для обучения контролируемого анализатора; 2) в доступных языковых данных часто нарушаются грамматические правила, «как это выражено в твиттере»; 3) на практике язык постоянно меняется, поэтому правила грамматики могут развиваться.

С другой стороны, изучение древовидных структур из доступных данных без присмотра все еще остается открытой проблемой. Громоздкие структуры в процессе обучения (такие как левоветвящаяся древовидная структура, правоветвящаяся древовидная структура (Williams et al., 2018)) или дилеммы обучения с подкреплением (Yogatama et al., 2016) делают многие исследования непродуктивными. Кроме того, некоторые методы относительно сложны для реализации и обучения, например PRPN, предложенный Shen et al. (2017).

Рекуррентная нейронная сеть(RNN) оказались очень эффективными в задачах языкового моделирования (Merity et al., 2017; Melis et al., 2017). RNN неявно накладывают цепную структуру на данные. Эта цепочечная структура кажется несовместимой с базовой несериализуемой структурой языка и создает некоторые трудности для применения методов глубокого обучения к данным естественного языка, таких как захват долгосрочных зависимостей (Bengio et al., 2009), получение хорошая способность к обобщению (Bowman et al., 2015) и работе с отрицанием (Socher et al., 2013) и т. д. В то же время есть свидетельства того, что рекуррентные нейронные сети с достаточной мощностью потенциально могут неявно кодировать эту древовидную структуру (Kuncoro et al., 2018). Но вопрос в том, приводит ли наложение индуктивных априорных структур с древовидной структурой к архитектуре модели к лучшим языковым моделям?

В этой статье представлено новое индуктивное смещение для рекуррентных нейронных сетей: упорядоченные нейроны. Это индуктивное смещение усиливает межнейронные зависимости, отражающие время жизни информации, хранящейся в каждом нейроне. Другими словами, некоторые нейроны более высокого уровня хранят долгосрочную информацию, а нейроны более низкого уровня хранят краткосрочную информацию. Чтобы избежать фиксированного разделения между нейронами высокого и низкого уровня, в этой статье также предлагается новая функция активации cumax() для активного распределения нейронов для хранения долгосрочной/кратковременной информации. На основе сетевых архитектур cumax() и Long Short-Term Memory (LSTM) в этой статье разрабатывается новая модель ON-LSTM, которая позволяет моделям RNN выполнять древовидный синтез без разрушения их последовательной формы. Модель отлично справляется с четырьмя задачами: языковое моделирование, неконтролируемый синтаксический анализ групп, целевая оценка грамматики (Marvin & Linzen, 2018) и логическое рассуждение (Bowman et al., 2015). Его результаты по задаче разбора компонентов без учителя показывают, что индуктивная погрешность, предложенная в этой статье, согласуется с принципами грамматики, предложенными экспертами-людьми. Наши эксперименты также показывают, что ON-LSTM превосходит стандарт с точки зрения долгосрочных зависимостей и обобщения длинных последовательностей.LSTMулучшенная производительность модели,

Диссертация: УПОРЯДОЧЕННЫЕ НЕЙРОНЫ: ИНТЕГРАЦИЯ ДРЕВЕСНЫХ СТРУКТУР В РЕКУРЕНТНЫЕ НЕЙРОННЫЕ СЕТИ

Ссылка на бумагу:открыть обзор.net/forum?ID=B1…

Резюме: Модели рекуррентных нейронных сетей широко использовались для обработки данных последовательности, управляемых скрытыми древовидными структурами. Предыдущие исследования показали, что модели RNN (особенно модели на основе LSTM) могут научиться использовать скрытые древовидные структуры. Однако его производительность постоянно отстает от древовидных моделей. Мы предлагаем новый индуктивный уклон, упорядоченный нейрон, который обеспечивает порядок частоты обновления среди нейронов со скрытым состоянием. В этой статье показано, что упорядоченные нейроны позволяют явно интегрировать скрытые древовидные структуры в рекуррентные модели. С этой целью мы предлагаем новый модуль RNN: ON-LSTM, который превосходно справляется с четырьмя задачами: языковое моделирование, неконтролируемый синтаксический анализ компонентов, целевая оценка грамматики и логические рассуждения.

Рисунок 1: Дерево синтаксического анализа компонентов и связь ON-LSTM. Для заданной последовательности токенов (x1, x2, x3) дерево разбора ее компонентов показано на рисунке (a). На рисунке (b) показана блок-схема древовидной структуры, где узлы S и VP охватывают более одного временного шага. Представление узлов высокого уровня должно оставаться относительно согласованным на нескольких временных шагах. На рисунке (c) показана доля обновленных нейронов для каждой группы нейронов на каждом временном шаге. На каждом временном шаге при заданном входном слове более темные серые блоки представляют полные обновления, а светло-серые блоки представляют частичные обновления. Частота обновления трех групп нейронов не одинакова. Группы более высокого уровня обновляются реже, а группы более низкого уровня обновляются чаще.

ON-LSTM

В этой статье предлагается новый модуль RNN, ON-LSTM, как реализация упорядоченных нейронов. Новая модель похожа по архитектуре на стандартную модель LSTM.

Единственная разница между ON-LSTM и стандартной моделью LSTM заключается в том, что мы исключаем функцию обновления состояния ячейки ct и заменяем ее новым правилом обновления, которое будет подробно объяснено в последующих главах. Как и раньше, операции очистки и записи в состоянии ячейки ct управляются с помощью вентиля забывания ft и вентиля ввода it. В общем, поскольку вентили стандартных LSTM не навязывают топологию своим отдельным ячейкам, поведение отдельных ячеек не отражает порядок.

эксперимент

Таблица 1: Проблемы с отдельными моделями при проверке и наборах тестов в задаче языкового моделирования Penn Treebank. Модели с пометкой «связанные» используют привязки веса к встраиваниям и весам softmax. Модели, отмеченные «*», сосредоточены на улучшении части softmax языковой модели RNN.

Таблица 2: Результаты оценки немаркированного «анализа F1» на полных наборах тестов WSJ10 и WSJ. Языковая модель в этой статье разделена на три слоя, каждый слой предоставляет последовательность ˆdt. В этой статье представлены аналитические характеристики всех слоев. Результаты RL-SPINN и ST-Gumbel оцениваются на полном WSJ (Williams et al., 2017). Модель PRPN оценивается на тестовом наборе WSJ (Htut et al., 2018).

Таблица 3: Общая точность ON-LSTM и LSTM в каждом тестовом случае. «Долгосрочная зависимость» означает, что между целевой парой слов есть несвязанная фраза или предложение, а «краткосрочная зависимость» означает, что нет такой отвлекающей ситуации, как обезьяна.