1. paper
Effective Approaches to Attention-based Neural Machine Translation 2015
2. keypoint
Для nmt предлагается глобальное внимание и местное внимание. Среди них глобальное внимание похоже на мягкое внимание, а локальное внимание представляет собой деформацию, сочетающую мягкое внимание и жесткое внимание.
3. Введение
В настоящее время используется nmt, но нет подходящей структуры внимания.В этой статье предлагаются глобальные и локальные структуры внимания.
4. Модель
4.1 Обзор
Единицей RNN, выбранной моделью, является LSTM, и используется многоуровневая структура LSTM.
На этапе прогнозирования введите выходные данные последнего слоя LSMT.и вычисляется по механизму внимания одновременно
, привлечь внимание скрытый слой
Вероятность того, что слово переведено в слово, получается через слой softmax.
В данной статье предлагаются две модели, глобальная и локальная, наиболее важной из которых является расчетразные. При прогнозировании global учитывает целевое скрытое состояние
с глобальными исходными элементами
выравнивающие веса. Найдите средневзвешенное значение для глобальных исходных элементов и соответствующих весов выравнивания как
И local предсказывает свою позицию в исходных элементах в соответствии с целью, исходные скрытые состояния в окне участвуют только в расчете внимания и средневзвешенного значения.
4.2 global attention
Как показано на рисунке 2. рассчитатьКогда нужно учитывать все скрытые состояния энкодера. здесь
имеет переменную длину, потому что исходная цель имеет переменную длину.
Метод расчета баллов основан на содержании. Эти три метода по сути одинаковы.
И на основе местоположения, то есть внимание связано только с целевым скрытым состоянием.
4.3 local attention
Глобальное внимание должно учитывать все предыдущие скрытые состояния источника, а расчет занимает много времени. Это неприемлемо для длинных текстов (например, статей). Поэтому предлагается местное внимание.
Для каждого целевого элемента модель сначала прогнозирует, задайте параметр окна D, вектор контекста
это
Средневзвешенное значение скрытого состояния источника для этого интервала. Обратите внимание на вес внимания здесь
имеет фиксированную длину, поскольку D определено.
здесьПредлагаются также два метода расчета.
- Монотонное выравнивание.
То же, что и выравнивание слов в модели stm. можно просто установить
, что исходный элемент и целевой элемент монотонно выровнены.
- предсказывать.
и
— параметры модели, S — длина исходного элемента. Чтобы сблизить выровненные значения
, где среднее значение
Распределение, близкое к гауссовскому.
(Опыт),
является действительным числом, s является
Целое в окне.
4.3 input-feeding approch
Хотя внимание учитывается, каждое внимание рассчитывается независимо, и предыдущая «информация о выравнивании» не используется. (Выравнивание немного похоже на запоминание того, какие слова были переведены ранее, и на какое слово источника в основном ссылаются при переводе текущего слова.)
В этой статье предлагается метод подачи ввода, чтобы перевести внимание в скрытое состояние.И введите Concat, а затем используйте ввод LSTM. Этот вид выгоды является
- С предыдущей информацией о выравнивании
- Сеть имеет как горизонтальные, так и вертикальные соединения.
5. Эксперимент
Наилучший эффект трансляции, эффект усиления ансамбля (emsemble всегда хорош).
влияние на длину. Также дружелюбен к длинным предложениям. от 40 до 70 без существенного падения.
Сравнивая различные методы привлечения внимания, местный+общий — лучший.