Рекомендательная система, статьи серии FM (4) — Модель AFM

0. Пишите впереди

Ранее мы представили три модели серии FM, включая модель FM, DeepFM и NFM. Модели DeepFM и NFM оптимизируют FM в разной степени, фокусируясь на объединении нейронных сетей для достижения комбинаций функций высокого порядка. Сегодня мы представим модель AFM (машина факторизации внимания), которая применяет механизм внимания к модели FM.

Личный опыт:

Важность комбинации функций меняется по мере изменения цели прогнозирования.
Механизм внимания используется для изучения различных весов перед пересечением функций.

Адрес бумаги:

Woohoo IJcai.org/proceedings…

1. Предпосылки

Для традиционных моделей FM, моделей DeepFM и NFM все коэффициенты векторов признаков в перекрестных членах второго порядка равны 1. Однако в некоторых сценариях рекомендаций разные перекрестные признаки второго порядка имеют разные веса для прогнозирования текущей цели. Чтобы позволить модели узнать веса различных вторичных перекрестных элементов, AFM вводит механизм внимания.

На самом деле АСМ по-прежнему делится на мелкую часть и dnn-часть, а мелкая часть такая же, как и другие модели, поэтому здесь повторяться не будем. Ниже мы представим часть dnn модели AFM из общей архитектуры модели, уровня парного взаимодействия и уровня внимания.

2. Общая архитектура

Архитектура модели АСМ показана на рисунке. Модель в целом состоит из пяти частей, а именно: ввод разреженных функций, слой внедрения, слой парного взаимодействия, слой объединения на основе внимания и слой прогнозирования, Среди них входной слой принимает разреженные функции в качестве входных данных, а после внедрения, данные каждой области признаков получены.Вектор признаков встраивания, размерность вектора согласована.

Первые два шага представляют собой нормальную работу рекомендательной модели нейронной сети серии FM без какой-либо специальной обработки. Каждый вектор признаков встраивания будет проходить через слой парного взаимодействия, а вектор признаков будет пересекаться попарно для получения элементов признаков второго порядка. В то же время каждый вектор признаков второго порядка отправляется на уровень «Внимание», выводится значение веса вектора признаков, и вектор, который объединяет всю информацию о признаках, получается путем взвешивания суммирования, а затем результат прогнозирования вывод через полносвязный слой.

3. pair-wise interaction layer

Давайте сначала посмотрим на реализацию этого слоя, и его математическое выражение показано в следующей формуле.

в, $v_{i}$ представляет вектор встраивания, соответствующий предметной области, $x_{i}$ представляет значение функции, $\odot$ Представляет поэлементную операцию произведения. Глядя на это с этой точки зрения, очень ли это похоже на двойное взаимодействие в NFM? Слой парного взаимодействия получает элементы признаков второго порядка путем парного пересечения векторов встраивания признаков. В то же время количество признаков второго порядка равно $m(m-1)/2$ ,в $m$ - это количество примеров доменов признаков.

4. attention-based pooling layer

Поскольку дизайнер называет модель «внимание-фм», введение механизма внимания должно стать самой большой изюминкой статьи. Давайте посмотрим, как спроектирован и реализован уровень объединения на основе внимания в AFM.

Чтобы иметь возможность оценить вес вектора второго порядка, относительно простой метод состоит в том, чтобы узнать его значение путем минимизации функции потерь.Хотя это кажется выполнимым, это столкнется с предыдущей проблемой: когда функция взаимодействия не появляется в примере невозможно рассчитать показатель внимания интерактивной функции. Чтобы решить эту проблему обобщения, AFM использует сеть MLP для депараметризации этой оценки внимания, которая называется уровнем внимания. Ниже показано математическое выражение слоя «Внимание».

Видно, что входом слоя внимания является каждый вектор признаков второго порядка.После слоя MLP он отправляется в softmax и нормализуется к весу каждого вектора признаков второго порядка. Среди них функция активации сети использует обычно используемый ReLU, а количество нейронов в скрытом слое используется в качестве гиперпараметра слоя внимания, который необходимо получить с помощью настройки сети. После получения веса каждого вектора признаков второго порядка AFM получает вектор, который объединяет всю информацию о признаках путем взвешенного суммирования всех векторов признаков второго порядка, и отправляет его на полносвязный слой и получает окончательный результат прогнозирования через софтмакс.

5. Резюме

Основываясь на модели FM, AFM вводит механизм внимания, который позволяет модели эффективно изучать веса элементов признаков второго порядка, которые не учитываются DeepFM, NFM и другими моделями.