Модель внимания для глубокого обучения

искусственный интеллект TensorFlow глубокое обучение Tomcat
Модель внимания для глубокого обучения

предисловие

Удивительно видеть статью "Внимание - это все, что вам нужно", опубликованную Google по машинному переводу. Это совершенно новая модель, которая сильно отличается от предыдущей классической модели seq2seq. Она полностью отказывается от нейронной сети RNN или CNN. упрощает сложность модели, и эффект довольно хороший. Конечно, модель Attention можно использовать отдельно, но в этой статье давайте рассмотрим механизм Attention и то, как его можно комбинировать с классическим seq2seq.

seq2seq

Ранее у нас была подробная статья, в которой рассказывалось о механизме seq2seq и о том, как использовать TensorFlow для реализации seq2seq. доступный«Модель глубокого обучения seq2seq»,«TensorFlow реализует seq2seq»читать.

Структура модели seq2seq в основном такая же. Ниже приведена общая структура для иллюстрации. Мы можем видеть, что декодер использует состояние C для представления ввода в разное время, а вывод части кодировщика в разное время


, и имеют


видно, что ввод в разное время кодируется в C, а вывод в разное время связан с выводом предыдущего момента, неявным состоянием текущего момента, и состоянием кодирования C, и неявным состоянием текущего момента связано с предыдущим моментом.Скрытое состояние, выход в последний момент и код C связаны.

недостатки seq2seq

Модель seq2seq отлично подходит для решения проблем с последовательностями.Модель кодировщик-декодер, реализованная в ней, позволяет ей играть мощную роль во многих сценариях и достигать очень хороших результатов. Но он также имеет свои ограничения.Считается, что самым большим ограничением seq2seq является то, что единственной связью между кодированием и декодированием является семантический вектор C фиксированной длины.

Выше мы можем видеть, что вход кодировщика в разное время кодируется в состояние C, которое является семантическим вектором. С этой точки зрения он сжимает всю последовательность информации в вектор фиксированной длины. Для коротких последовательностей это может не быть проблемой, но для более длинных и сложных очередей семантический вектор может не полностью представлять информацию всей последовательности. И информация о последовательности, введенной первой, будет разбавлена ​​информацией о последовательности, введенной позже. Чем длиннее входная последовательность, тем серьезнее это явление. Если мы получим семантическое кодирование с потерями, это, вероятно, также повлияет на последующее декодирование.

Кроме того, в модели seq2seq обычно используется RNN, а поскольку RNN связана с состоянием в предыдущий момент, она не может работать параллельно, а эффективность низка. Но это ограничение всего использования RNN, за исключением того, что оно не используется.

Модель внимания

Для решения проблемы смысловых потерь и размывания информации предлагается модель «Внимание», которая имитирует зрительный механизм внимания человека, например, при наблюдении за определенной картинкой внимание фокусируется на одной ее части. , а остальное становится размытым.

По рисунку посмотрим подробно, как модель Attention сочетается с seq2seq. Для декодера вывод

C здесь отличается от семантического вектора C seq2seq, упомянутого ранее, и больше не кодирует все входные данные.Ниже мы поговорим о том, как вычисляется C. Глядя на скрытое состояние,

Формула для вычисления вектора C:

Мы можем рассматривать как вес, соответствующий входу в разное время выхода в каждый момент.На самом деле, мы можем использовать softmax для расчета.Его формула расчета:

в,

Комбинация seq2seq и Attention в основном описывается приведенными выше формулами, в которых каждый выход имеет большее участие вектора внимания, а вес внимания совместно определяется скрытым состоянием предыдущего момента и скрытым состоянием каждого входа кодировщика .

Добавление модели Attention к модели seq2seq преодолевает проблемы семантических потерь и разбавления информации, но также вносит дополнительные затраты.Для структуры m входов и n выходов параметр Attention также достигает порядка величины m*n.

Ниже приведенырекламироватьиСвязанное Чтение

========Время рекламы========

Моя новая книга «Анализ дизайна ядра Tomcat» продана на Jingdong, нуждающиеся друзья могут перейти кitem.JD.com/12185360.Контракт…Зарезервировать. Спасибо друзья.

Зачем писать «Анализ проектирования ядра Tomcat»

=========================

Связанное чтение:
«Модель глубокого обучения seq2seq»
«TensorFlow реализует seq2seq»

Добро пожаловать, чтобы следовать: