PaperNotes: Серия "Внимание" (2) - ANMT

глубокое обучение

1. paper

Effective Approaches to Attention-based Neural Machine Translation 2015

2. keypoint

Для nmt предлагается глобальное внимание и местное внимание. Среди них глобальное внимание похоже на мягкое внимание, а локальное внимание представляет собой деформацию, сочетающую мягкое внимание и жесткое внимание.

3. Введение

В настоящее время используется nmt, но нет подходящей структуры внимания.В этой статье предлагаются глобальные и локальные структуры внимания.

4. Модель

4.1 Обзор

Единицей RNN, выбранной моделью, является LSTM, и используется многоуровневая структура LSTM.

LSTM

seq2seq

На этапе прогнозирования введите выходные данные последнего слоя LSMT.h_tи вычисляется по механизму внимания одновременноc_t, привлечь внимание скрытый слой

\mathbf{\widetilde{h}_t}=tanh(\mathbf{W_c}[\mathbf{c_t;h_t}])

{\widetilde{h}_t}Вероятность того, что слово переведено в слово, получается через слой softmax.

p(y_t|y_{<t}) = softmax(\mathbf{W_s\widetilde{h}_t})

В данной статье предлагаются две модели, глобальная и локальная, наиболее важной из которых является расчетc_tразные. При прогнозировании global учитывает целевое скрытое состояниеh_tс глобальными исходными элементами\overline{h}_sвыравнивающие веса. Найдите средневзвешенное значение для глобальных исходных элементов и соответствующих весов выравнивания какc_t

И local предсказывает свою позицию в исходных элементах в соответствии с цельюp_t, исходные скрытые состояния в окне участвуют только в расчете внимания и средневзвешенного значения.

4.2 global attention

Как показано на рисунке 2. рассчитатьc_tКогда нужно учитывать все скрытые состояния энкодера. здесь\alphaимеет переменную длину, потому что исходная цель имеет переменную длину.

\mathbf{\alpha_t}(s) = align(\mathbf{h_t, \widetilde{h}_s}) =\frac{exp(score(\mathbf{h_t, \overline{h}_s}))}{\sum_{s'}{exp(score(\mathbf{h_t, \overline{h}_{s'}}))}}

Метод расчета баллов основан на содержании. Эти три метода по сути одинаковы.

score(\mathbf{h_t, \overline{h}_s})= \begin{cases} \mathbf{h_t^\top\overline{h}_s}&dot \\ \mathbf{h_t^\top W_a\overline{h}_s} & general \\ \mathbf{v_a}^\top tanh(\mathbf{W_a[h_t;\overline{h}_s]})& concat \end{cases}

И на основе местоположения, то есть внимание связано только с целевым скрытым состоянием.

\mathbf{a}_t=softmax(\mathbf{W_ah_t})

4.3 local attention

Глобальное внимание должно учитывать все предыдущие скрытые состояния источника, а расчет занимает много времени. Это неприемлемо для длинных текстов (например, статей). Поэтому предлагается местное внимание. Для каждого целевого элемента модель сначала прогнозируетp_i, задайте параметр окна D, вектор контекстаc_tэто[p_t-D, p_t+D]Средневзвешенное значение скрытого состояния источника для этого интервала. Обратите внимание на вес внимания здесь\alphaимеет фиксированную длину, поскольку D определено.

здесьp_iПредлагаются также два метода расчета.

  • Монотонное выравнивание.p_iТо же, что и выравнивание слов в модели stm. можно просто установитьp_t = t, что исходный элемент и целевой элемент монотонно выровнены.
  • предсказывать.
    p_t=S·sigmoid(\mathbf{v}_p^\top tanh(\mathbf{W_ph_t}))

\mathbf{W_p}и\mathbf{v_p}— параметры модели, S — длина исходного элемента. Чтобы сблизить выровненные значенияp_t, где среднее значениеp_tРаспределение, близкое к гауссовскому.

\alpha_t(s)=align(\mathbf{h_t, \widetilde{h}_s})exp(-\frac{(s-p_t)^2}{2\sigma^2})

\sigma=D/2(Опыт),p_tявляется действительным числом, s являетсяp_tЦелое в окне.

4.3 input-feeding approch

Хотя внимание учитывается, каждое внимание рассчитывается независимо, и предыдущая «информация о выравнивании» не используется. (Выравнивание немного похоже на запоминание того, какие слова были переведены ранее, и на какое слово источника в основном ссылаются при переводе текущего слова.) В этой статье предлагается метод подачи ввода, чтобы перевести внимание в скрытое состояние.\mathbf{\widetilde{h}_t}И введите Concat, а затем используйте ввод LSTM. Этот вид выгоды является

  • С предыдущей информацией о выравнивании
  • Сеть имеет как горизонтальные, так и вертикальные соединения.

input-feeding

5. Эксперимент

Наилучший эффект трансляции, эффект усиления ансамбля (emsemble всегда хорош).

влияние на длину. Также дружелюбен к длинным предложениям. от 40 до 70 без существенного падения.

Сравнивая различные методы привлечения внимания, местный+общий — лучший.