Система рекомендаций Статьи серии FM (1) -- Модель FM

машинное обучение

0. Пишите впереди

Практики системы рекомендаций не должны быть незнакомы с моделью FM (Машины факторизации). Промышленность и академические круги также предложили серию моделей оптимизации, основанных на FM. Эти модели до сих пор широко используются в различных сценариях. В этой статье вы ознакомитесь с моделью FM и изучите ее принципы.

Личный опыт:

  1. По сравнению с LR, FM представляет комбинацию функций второго порядка.
  2. Параметры признаков оцениваются путем введения скрытых векторов посредством матричной декомпозиции, что решает проблему разреженности признаков и значительно сокращает количество параметров.
  3. По сравнению с MF (матричной факторизацией), FM может вводить другие функции, отличные от пользовательских функций и функций элементов, и имеет более широкий спектр приложений.

Адрес бумаги:

Ооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооо бы

1. Предпосылки

Совместная фильтрация широко использовалась на заре персонализированных рекомендаций в рекомендательных системах. Совместная фильтрация реализует персонализированную рекомендацию, основанную на идее одной и той же аудитории похожих элементов или одинаковых предпочтений похожих пользователей.Для решения разреженной проблемы матрицы пользовательского интерфейса совместной фильтрации (матрицы пользователя-элемента) предлагается MF оценить элементы, с которыми пользователи не взаимодействовали. оценка между ними. Однако совместная фильтрация может учитывать только характеристики взаимодействия пользователей и элементов, характеристики самих пользователей и элементов, и эту модель нельзя использовать эффективно. Чтобы в полной мере использовать функции, люди применяют модель LR (линейная регрессия) к рекомендательному сценарию, но, как мы все знаем, LR — это линейная модель, и она не может соответствовать функциям второго порядка и выше. Чтобы решить эту проблему и в то же время обеспечить применимость модели, появилась FM-модель.

2. Архитектура модели

Давайте сначала рассмотрим набор типичных функций в рекомендательном сценарии, как показано на следующем рисунке.

image-20201211224103319

После кодирования функции класса id мы получаем новую комбинацию функций в виде

image-20201211224118116

Мы также упоминали выше, что если линейная модель LR первого порядка используется для подбора признаков, LR выражается как

y=w0+i=1nwixiy=w_{0}+\sum_{i=1}^{n}w_{i}x_{i}

LR здесь рассматривает только признаки первого порядка подобранной выборки и не рассматривает признаки второго порядка. Однако комбинированные признаки второго порядка, такие как «пол=мужской, цвет=синий», очень значимы. Тогда LR с учетом комбинированных признаков второго порядка может быть выражен как

y=w0+i=1nwixi+i=1n1j=i+1nwijxixjy=w_{0}+\sum_{i=1}^{n}w_{i}x_{i}+\sum_{i=1}^{n-1}\sum_{j=i+1}^{n}w_{ij}x_{i}x_{j}

По сравнению с LR первого порядка, LR второго порядка имеет дополнительный признак второго порядка, то есть признаки объединены в две группы для перечисления. Здесь возникают две проблемы:

  1. Количество параметров признаков второго порядка равноn2n^{2}, количество параметров увеличивается экспоненциально.
  2. Проблемы с обучением, вызванные разреженными образцами. После кодирования большая часть битов категориальной переменной равна 0. После объединения с другими признаками значение по-прежнему равно 0, что приведет к разреженным выборкам. В процессе обучения LR для разреженных выборок параметры, соответствующие признакам со значением 0, будет сложно обновить.

FM-модель эффективно решает вышеуказанные проблемы, эффективно завершая работу комбинации признаков второго порядка, поэтому она широко используется в сценах пересечения различных признаков второго порядка. Форма реализации ФМ модели показана в следующей формуле

y=w0+i=1nwixi+i=1n1j=i+1n<vi,vj>xixjy=w_{0}+\sum_{i=1}^{n}w_{i}x_{i}+\sum_{i=1}^{n-1}\sum_{j=i+1}^{n}< v_{i},v_{j} >x_{i}x_{j}

Можно видеть, что, за исключением разницы между термином признака второго порядка и моделью LR второго порядка, другие части точно такие же. Далее мы подробно объясним эту часть.

Член второго порядка FM-модели по-прежнему имеет место, когда перечисленные признаки пересекаются друг с другом, но отличие состоит в том, что параметры перекрестного признака второго порядка определяются скаляром.wi,jw_{i,j}становится векторомviv_{i},vjv_{j}скалярное произведение .viv_{i},vjv_{j}Как показано ниже, признаки первого порядка каждого измеренияxix_{i}имеют соответствующие векторыviv_{i}.

Vn×k=[a11a12a1ka21a22a2kan1an2ank]=[v1v2vn]V_{n\times k}= \begin{bmatrix} a_{11}& a_{12}& \cdots & a_{1k}\\ a_{21}& a_{22}& \cdots & a_{2k}\\ \vdots & \vdots & \ddots & \vdots \\ a_{n1}& a_{n2}& \cdots & a_{nk} \end{bmatrix} =\begin{bmatrix} v_{1}\\ v_{2}\\ \vdots\\ v_{n} \end{bmatrix}

можно увидеть,viv_{i},vjv_{j}размерkkвектор , гдеkkявляются гиперпараметрами, установленными пользователем модели. Итак, здесь мы можем посчитать, количество параметров, используемых FM, равноn*kn*k, который является размером векторной матрицы выше. в,nn- количество признаков первого порядка,kkдлина вектора (kk<<nn). По сравнению с LR второго порядкаn*nn*nМожно сказать, что количество параметров FM-модели значительно сокращает количество параметров модели, решая при этом упомянутую выше первую проблему. Поскольку каждому признаку первого порядка соответствует свой векторvv, причем обновление каждого вектора в процессе обучения взаимодействует уже не только с одним вектором, а взаимодействует со всеми векторами,

Например, даже во всех образцахxixjx_{i}x_{j}Это не произошло одновременно и не влияет на его весwijw_{ij}обучение, потому чтоviv_{i}во время тренировки согласноvkv_{k}(k!=i,jk != i,j) и обновление, больше не зависит отvjv_{j}, так же,vjv_{j}также согласноvkv_{k}(k!=i,jk != i,j) и обновление, больше не зависит отviv_{i}.

Таким образом, модель FM решает проблему изучения и обновления параметров в случае разреженных выборок.

3. Резюме

Как классическая модель в рекомендательной системе, модель FM решает взрыв параметров традиционной модели LR после пересечения функций второго порядка и обновления параметров при разреженных выборках, поэтому она широко используется в различных сценариях рекомендаций. Следуя модели FM, научные круги и промышленность также пытались провести работу по оптимизации FM с разных точек зрения, и появился ряд превосходных моделей для сценариев рекомендаций.