Разборка серии Transformer 2: подробное объяснение многоголовочного механизма внимания

существует"Разборка трансформатора серии 1: подробное объяснение архитектуры модели кодер-декодер«Есть краткое введение во внимание, само-внимание и многоголовое внимание, все из которых являются просто интуитивным введением в роль внимания, как запоминать ключевую информацию, такую как механизм визуального внимания человека, а также представляет само- Механизм внимания.Как усвоить внутреннюю структуру предложений и некоторые грамматические особенности, взвешивая собственное внимание.

Теперь я также планирую продолжить подробное объяснение Attention, в основном, чтобы объяснить, как реализовано Multi-Head Attention в Transformer? Объясните с помощью иллюстраций и пояснений.

Self-Attention

В предыдущем разделе мы упомянули, что Запрос=Ключ=Значение Само-Внимания, то есть все три матрицы Q, K и V исходят из одного и того же входа, и каков процесс вычисления Внимания?

Механизм «Внимание» — это, по сути, процесс адресации. При задании вектора запроса запроса Q, связанного с задачей и задачей, значение внимания рассчитывается путем вычисления распределения внимания с помощью ключа и добавления его к значению. Этот процесс на самом деле является вниманием. Воплощение сложности нейронной сети не требует ввода всех N входов в нейронную сеть для расчета, но выбирает некоторую информацию, связанную с задачей, для ввода в нейронную сеть, что аналогично механизму стробирования в RNN.

Процесс расчета механизма внимания можно условно разделить на три этапа:

① Ввод информации: введите Q, K, V в модель

использоватьпредставляет вектор входного веса

② Рассчитайте распределение внимания α: Рассчитайте корреляцию, вычислив скалярное произведение Q и K, и рассчитайте балл с помощью softmax.

Другой, веса внимания рассчитываются softmax,

мы будемНазовем это распределением вероятности внимания,Что касается механизма оценки внимания, наиболее распространенными являются следующие:

Аддитивная модель:

Модель точечного продукта:

Масштабируйте модель точечного продукта: $s(x_i,q)={x_i^Tq}/\sqrt{d_k}$

Билинейная модель:

③ Средневзвешенная информация: распределение вниманияобъяснить запрос в контекстевремя,Степень внимания к информации.

$att(q,X)=\sum_{i=1}^N{α_iX_i}$

Выше описан общий процесс расчета внимания, а также описаны различные варианты расчета показателя внимания Итак, какой из них используется в Transformer? Ответ:Scaled Dot-Product Attention

На рисунке выше показана упрощенная диаграмма масштабированного скалярного произведения внимания.Вы можете видеть, что входные данные Q, K и V одинаковы.

Вы можете видеть, что Scaled Dot-Product Attention имеет коэффициент масштабирования $\sqrt{d_k}$ , зачем добавлять этот коэффициент масштабирования?

еслиОчень маленькое, аддитивное внимание и внимание, основанное на скалярном произведении, мало чем отличаются.

но еслиОчень большой, значение скалярного произведения очень велико, и если вы не выполняете масштабирование, результат не так хорош, как аддитивное внимание.

Кроме того, результат точечного произведения слишком велик, поэтому градиент после softmax очень мал, что не способствует обратному распространению, поэтому результат масштабируется.

Мы кратко упомянули в предыдущем разделе, что Само-Внимание может улавливать зависимости на большом расстоянии и может изучать внутреннюю структуру и грамматику предложений, так как же происходит процесс вычисления Само-Внимания?

Step 1

Сначала введите информацию: используйте X=[x_1,x_2,...x_n] выражатьНачальное представление трех векторов Q, K и V получается линейным преобразованием:

Step 2

Чтобы рассчитать оценку собственного внимания, предполагая, что мы вычисляем оценку собственного внимания к первому слову «Думаю» на изображении ниже, нам нужно рассчитать оценку слова «Думаю» для каждого слова в предложении. Оценка определяет, сколько внимания мы должны уделить остальной части входного предложения, когда мы кодируем слово в определенной позиции.

Оценка рассчитывается путем скалярного произведения Q и вектора ключевых слов K для каждого слова, поэтому, если бы мы имели дело с вниманием к себе для слова на позиции № 1, первая оценка была бы q_1 и k_1 скалярное произведение . Второй балл q_1 и k_2 скалярное произведение .

q_1.k_1=112,q_1.k2=96

Step 3

Масштабируйте баллы, рассчитанные на шаге 2, здесь путем деления на 8 (в статье d_k=64 , что может сделать модель более стабильной с градиентом, значение по умолчанию равно 64 или другим значениям), а результаты нормализованы softmax.

$z_1=q_1.k_1/\sqrt{d_k}=112/\sqrt{64}=112/8=14,z_2=q_1.k_2/\sqrt{d_k}=96/\sqrt{64}=96/8=12$

$softmax(z_1)=exp(z_1)/\sum_{i=1}^2(exp(z_i))=0.88,softmax(z_2)=exp(z_2)/\sum_{i=1}^2(exp(z_i))0.12$

Step 4

Умножьте балл на v_1,v_2 затем получите взвешенное значение, сложите эти значения, чтобы получить z_1 . Это результат этого слоя, внимательно пощупайте его, используйте Q,K рассчитать thinking правильно thinking，machine вес, умножьте вес на thinking,machine извзвешенныйиз, и, наконец, суммируется, чтобы получить вывод для каждого слова.

многоголовый механизм внимания

В документе показано, что разделение модели на несколько головок для формирования нескольких подпространств позволяет модели сосредоточиться на различных аспектах информации. Multi-Head Attention на приведенном выше рисунке заключается в том, чтобы выполнить процесс Scaled Dot-Product Attention H раз, а затем объединить выходные данные.

Формула механизма многоголового внимания выглядит следующим образом:

Q_i=QW_i^Q,K_i=KW_i^K,V_i=VW_i^V,i=1,...,8

head_i=Attention(Q_i,K_i,V_i),i=1,...,8

MultiHead(Q,K,V)=Concact(head_1,...,head_8)W^O

Здесь мы предполагаем $Q,K,V∈R^{512},W_i^Q,W_i^K,W_i^V∈R^{512\times64},W^O∈R^{512\times512},head_i∈R^{64}$

① Введите фразу «мастерская».

② Маркировать предложение в Word Embedding X

③ Разделите X на 8 частей и соедините с весомУмножьте, чтобы сформировать входной вектор,форма

④ Рассчитайте матрицу веса внимания, $z_i=softmax(Q_iK_i^T/\sqrt{d_k})V_i$ , и, наконец, поместите каждыйсливаться в форму

⑤ Окончательно поставить результат 8 решексливаться, точка умножается на вес,форма

Как вы можете видеть ниже, X будет иметь много матриц,

В Преобразователе выход Энкодера будет использоваться как вход Декодера, а выход Энкодера — это K, V и Q предыдущего слоя Декодера.

Суммировать

Причина, по которой Transformer использует механизм внутреннего внимания, была упомянута выше, модель механизма внимания Transformer лучше, чем RNN, в задачах машинного перевода. Использование многоголового внимания расширяет способность модели фокусироваться на разных местах, тем самым придавая вниманию несколько подвыражений.

Добро пожаловать, чтобы обратить внимание на личный общедоступный номер, более захватывающий контент