Помогите вам легко понять принцип самоконтроля

Это 21-й день моего участия в Gengwen Challenge, смотрите подробности мероприятия:Обновить вызов

введение

Ранее мы представили использование Attention для повышения производительности Seq2Seq и применили Attention к частям Seq2Seq, связанным с кодировщиком и декодером. В этой статье мы вводим само-внимание, и внимание можно использовать только частично.

Может ли Само-Внимание воздействовать на LSTM в статье, здесь я упрощу процесс и представлю идею с SimpleRNN вместо LSTM.

Основной принцип SimpleRNN + Self-Attention

[SimpleRNN находит h_iМетоды】

мы былиSimpleRNNнайти ч_i, осуществляется по следующей формуле:

h_i = tanh(A * concat(x_i, h_i-1)+b)

Объясните, что состояние скрытого слоя в текущий момент зависит от текущего входа x_iи вход состояния скрытого слоя h в предыдущий момент_i-1.

[SimpleRNN + Самостоятельное внимание, чтобы найти h_iМетоды】

Когда вводится само-внимание, SimpleRNN находит h_iМетод изменился, и осуществляется он по идее следующей формулы:

h_i = tanh(A * concat(x_i, c_i-1)+b)

Пример на рисунке показывает t₃Скрытое состояние в момент времени h₃зависит от текущего входа x₃и контекстный вектор c предыдущего момента₂.

где с_iвыход h скрытого слоя в i-й момент времени_iс существующим ч₁,... , ч_iВыполните расчет веса, чтобы получить список весов.₁,..., а_i, и, наконец, средневзвешенное суммирование выходных данных скрытого слоя и соответствующих им весовых параметров для получения c_i. Что касается метода расчета удельного веса иAttentionМетод, упомянутый в статье, тот же и здесь повторяться не будет.

Из примера на рисунке можно c₃ч₁, ч₂, ч₃и соответствующие им веса a₁, а₂, а₃Средневзвешенная сумма .

Кроме того, вы можете подумать о переходе на более сложную идею расчета.Другие конкретные процессы такие же, как и выше:

h_i = tanh(A * concat(x_i, c_i-1, h_i-1,)+b)

Суммировать

Самостоятельное внимание, как и внимание, может решить проблему забывания моделей, подобных RNN, и выводить h каждый раз, когда вычисляется текущий скрытый слой._i, всегда используйте c_i-1Давайте рассмотрим предыдущую информацию, чтобы вы могли вспомнить предыдущую информацию. Но c в самовнимании_iВычисление может быть выполнено в его собственной структуре RNN вместо того, чтобы охватывать две структуры RNN декодера и кодировщика, как Attention в Seq2Seq, то есть c декодера._iЗависит от всех выходных данных скрытого слоя кодировщика.
Self-Attention можно применять к любой модели класса RNN для повышения производительности, такой как LSTM и так далее.
Самостоятельное внимание также может помочь RNN обратить внимание на соответствующую информацию, как показано на рисунке ниже, красное слово — это текущий вход, а синее слово — это слово, которое больше связано с текущим входным словом.

Ссылаться на

Cheng J , Dong L , Lapata M . Long Short-Term Memory-Networks for Machine Reading[C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. 2016.