Легко понять принцип внимания

Это 16-й день моего участия в Gengwen Challenge, пожалуйста, проверьте подробности мероприятия:Обновить вызов

Недостатки Seq2Seq

Хотя в Seq2Seq есть много методов для улучшения эффекта, у него есть большой недостаток: когда входная последовательность слишком длинная, конечный вектор выходного состояния h трудно запомнить исходное содержимое или какое-то ключевое содержимое.

Если Seq2Seq используется для машинного перевода, эффект будет максимальным, когда количество слов во входном предложении будет около 20. Когда количество слов во входном предложении превысит 20, эффект будет продолжать снижаться, поскольку кодировщик забудет некоторую информацию. После добавления механизма Attention на базе Seq2Seq эффект не уменьшится при вводе более 20 слов.

Seq2Seq с вниманием

Представлена модель внимания Seq2Seq, которая может значительно повысить производительность Seq2Seq, поскольку декодер просматривает все функции, суммированные кодировщиком на входе, каждый раз, когда он декодирует, а внимание также сообщает декодеру, какие входы и их функции должны платить больше. Обратите внимание на Encoder. , который также является источником имени Attention. Этот механизм обращает внимание на ввод так же, как и люди: когда мы читаем предложение, мы сразу схватываем ключевые слова, а не каждый символ или слово является ключевым моментом.

Внимание Хотя это может значительно повысить производительность, единственным недостатком является то, что требуется много вычислений.

Принцип внимания

Как показано на рисунке, процесс кодировщика находится слева, а процесс декодера - справа. Обе части могут использовать структуру, состоящую из RNN и ее вариантов. Здесь SimpleRNN используется для введения принципа внимания. После того, как кодировщик захватит входные объекты, как обычно, он выводит вектор состояния h в каждый момент времени._i, и преобразовать h последнего момента_mкак начальный вектор состояния s декодера₀, процесс Deocder в это время выглядит следующим образом:

а) Сначала вычислите первое декодирование, сначала мы вычислим s в декодере₀с каждым вектором состояния h в Encoder_iВычислить вес (метод расчета веса будет представлен ниже), каждый вектор состояния h_iсоответствует весу а_i,Какие_iозначает ч_iс с₀, то для всех [a₁,a₂,...,a_m] Сделайте преобразование Softmax и станьте весом [a₁,a₂,...,a_m] , то мы используем новые веса [a₁,a₂,...,a_m] и соответствующий вектор состояния [h₁,h₂,...,h_m] Возьмите средневзвешенное значение, чтобы получить c₀. Затем мы используем х^'₁,от₀и с₀Рассчитано с₁, формула выглядит следующим образом:

s₁ = tanh( A^' * contact(x^'₁ ,c₀, s₀) + b)

【Объяснение ключа】потому что с₀является взвешенной суммой векторов состояния в кодировщике за все время, поэтому он знает полную входную информацию кодировщика, что решает проблему забывания Seq2Seq. плюс текущий вход x^'₁и информация о состоянии предыдущего момента₀, поэтому можно предсказать выход вектора состояния s в текущий момент₁.

б) Второе декодирование аналогично предыдущему, вычисляем s в Decoder₁со всеми векторами состояния h в Encoder_iвеса для каждого вектора состояния h_iсоответствует весу а_i,Какие_iозначает ч_iс с₁, то для всех [a₁,a₂,...,a_m] Сделайте преобразование Softmax и станьте весом [a₁,a₂,...,a_m] , то мы используем новый a_iи соответствующий h_iВозьмите средневзвешенное значение, чтобы получить c₁. Затем мы используем х^'₂,от₁и с₁получить с₂, формула выглядит следующим образом:

s₂ = tanh( A^' * contact(x^'₂, c₁, s₁) + b)

【Объяснение ключа】потому что с₁является взвешенной суммой векторов состояния в кодировщике за все время, поэтому он знает полную входную информацию кодировщика, что решает проблему забывания Seq2Seq. плюс текущий вход x^'₂и информация о состоянии предыдущего момента₁, поэтому можно предсказать выход вектора состояния s в текущий момент₂.

c) Аналогично повторению описанного выше процесса декодирования до конца.

Два метода расчета веса

В общем, есть два способа вычислить s в Decoder._iсо всеми векторами состояния h в Encoder_iразмер веса.

Первый — это метод, описанный в исходной статье, как показано на рисунке ниже. На рисунке с₀со всеми векторами состояния h в Encoder_iВозьмем, к примеру, расчет веса. поставь ч_iи с₀После склеивания, а затем умножения на матрицу параметров W он преобразуется нелинейной функцией th, и, наконец, полученный результат сравнивается с матрицей параметров v^TУмножьте, чтобы получить_i, так как есть m входов, кодировщик имеет m векторов состояния, поэтому ему нужно вычислить m a , и, наконец, [a₁,a₂,...,a_m] После изменения Softmax [a нового параметра веса получается₁,a₂,...,a_m]. Здесь W и v^Tпараметры, которые необходимо тренировать.

Второй — это метод, принятый в модели Transformer, как показано ниже. по-прежнему заканчиваются на s₀со всеми векторами состояния h в Encoder_iРассчитайте вес в качестве примера, установите W_Kс ч_iУмножьте, чтобы получить k_i, с Вт_Qс с₀Умножьте, чтобы получить q₀, то поставь к^T_iс д₀Скалярный продукт рассматривается как подобие a_i. Поскольку есть m входов, кодировщик имеет m векторов состояния, поэтому ему нужно вычислить m a и, наконец, [a₁,a₂,...,a_m] После изменения Softmax получаются новые параметры веса [a₁,a₂,...,a_m]. Где_Kи Вт_Qпараметры, которые необходимо тренировать.

временная сложность

Если входная длина m , целевая длина t .

После того, как мы ввели механизм внимания, мы получили m векторов состояния в кодировщике.В следующем процессе декодера вычисляются m a для каждого декодирования, и процесс декодера выполняется t раз, и, наконец, вычисляется общее количество m*. ta , поэтому временная сложность равна O(m+m*t). Таким образом, несмотря на то, что введение Attention в Seq2Seq может значительно улучшить производительность и избежать проблемы с забыванием, цена заключается в огромном количестве вычислений.

И Seq2Seq, который не вводит механизм внимания, потому что кодировщик вычисляет только m векторов состояния, а декодер декодирует t раз, поэтому временная сложность составляет всего O (m + t).

Визуализация веса

Вот пример перевода с английского на французский.С точки зрения визуализации мы можем интуитивно объяснить смысл, выраженный параметрами веса.Толщина фиолетовой линии на рисунке указывает на степень веса. При переводе в зону слова в процессе декодера он будет вычислять параметр веса с каждым входом в кодировщик, Мы видим, что, хотя зона имеет вес со всеми входными словами, значение веса со словом Площадь, очевидно, самое большое, Это означает, что при переводе zone особое внимание следует уделить слову Area, то есть слово Area имеет наибольшее влияние на перевод zone, ведь значения zone во французском языке и Area в английском схожи. Это также происхождение имени Внимание. Другой пример: при переводе французского Européenne вам нужно обратить особое внимание на европейский язык в английском языке, и причина та же, что и выше.

кейс

Я использовал интересный небольшой случай, который я реализовал сам, чтобы перевести случайные написанные строки на английский язык с подробными аннотациями и реализовал два метода расчета веса.Наггетс.Талант/пост/695060…