Система рекомендаций на основе глубокого обучения (2) на основе MLP

искусственный интеллект глубокое обучение алгоритм Нейронные сети

Во второй части мы резюмируем рекомендательную систему, основанную на MLP, и здесь я перехватываю только часть исходного текста. Аннотированные персонажи и библиографию, используемые в этом блоге, можно найти по адресуСистема рекомендаций на основе глубокого обучения (1) Обзорнайти в. Разделим эту работу на следующие части:

Нейросетевые расширения традиционных алгоритмов рекомендаций

Многие существующие модели рекомендаций основаны на линейных методах. MLP можно использовать для добавления нелинейных преобразований к существующим методам RS.

Neural Collaborative Filtering

В большинстве случаев рекомендация рассматривается как двустороннее взаимодействие между предпочтениями пользователя и характеристиками товара. Например, матричная факторизация (MF) разлагает матрицу оценок на низкоразмерные скрытые факторы пользователя/элемента. Естественно создавать двойные нейронные сети для имитации двунаправленного взаимодействия между пользователями и элементами. Две репрезентативные работы — матричная факторизация нейронной сети (NNMF) [37] и нейронная совместная фильтрация (NCF) [53].

На рис. 2а показана архитектура NCF. Предполагатьs_u^{user}иs_i^{item}Представлять характеристики пользователей и элементов (например, профиль пользователя и характеристики элементов) или просто пользователей.uи предметыiоднократное кодирование . Его оценочная функция определяется следующим образом:\hat{r_{ui}} = f(U^T \dot~ s_u^{user}, V^T \dot~ s_i^{item} | U, V, \theta)f(\dot~)это сеть MLP,\thetaявляются параметрами сети. Традиционный МФ можно рассматривать как частный случай НКФ. Следовательно, удобно объединить матричную факторизацию с MLP, чтобы сформулировать более общую модель, которая использует линейность MF и нелинейность MLP для улучшения качества рекомендаций. Всю сеть можно обучить с помощью взвешенных квадратов потерь (для явной обратной связи) или бинарных кросс-энтропийных потерь (для неявной обратной связи).

Deep Factorization Machine

DeepFM [47] — это сквозная модель, которая органично интегрирует FM и MLP. Он может моделировать взаимодействия высокого порядка с глубокими нейронными сетями и взаимодействия низкого порядка с FM. Машины факторизации (FM) используют операции сложения и внутреннего произведения для захвата линейных и попарных взаимодействий между функциями (см. уравнение (1) в [119] для более подробной информации). MLP использует нелинейные активации и глубокие структуры для моделирования взаимодействия функций высокого порядка. То, как MLP сочетается с FM, вдохновлено широкими и глубокими сетями. Он заменяет широкий компонент нейронной интерпретацией FM. По сравнению с широкими и глубокими моделями, DeepFM не требует утомительного проектирования функций. Рисунок 2b иллюстрирует структуру DeepFM. Вход DeepFM состоит из пары(u,i)(идентификация и характеристики пользователя и предмета), составленные из данных m-поля. Для простоты выходы ФМ и МЛП обозначаются какyFM(x)иyMLP(x). Оценка прогноза рассчитывается как:\hat{r_{ui}} = \sigma(yFM(x) + yMLP(x)).\sigmaПредставляет сигмовидный метод. Существует множество улучшенных версий вышеуказанных методов, я не буду их здесь повторять, заинтересованные читатели могут перейти к исходному тексту.

Особенности обучения с MLP

Представление признаков с использованием MLP очень простое и эффективное, даже если оно не такое мощное, как автоэнкодеры, CNN и RNN.

wide & deep model

Эта общая модель (показана на рисунке 3а) может решить как проблемы регрессии, так и проблемы классификации, но изначально она была представлена ​​для рекомендации приложений в Google Play [20]. Компонент широкого обучения представляет собой однослойный персептрон, который также можно рассматривать как обобщенную линейную модель. Компонент глубокого обучения представляет собой многослойный персептрон. Обоснование объединения этих двух методов обучения заключается в том, что это позволяет алгоритмам рекомендаций иметь возможности памяти и обобщения. Память, достигаемая компонентом широкого обучения, представляет собой возможность захвата прямых функций из исторических данных. Между тем, компонент глубокого обучения захватывает способность к обобщению, создавая более общие и абстрактные представления. Эта модель может повысить точность и разнообразие рекомендаций.

Формально широкую компоненту можно представить в видеy = W^T_{wide}\{x, \phi(x)\} + b, линейная модель.\{x, \phi(x)\}представляет набор входных данных, состоящий из исходных входных признаковxи преобразует (например, крест композиция признаков после преобразования для фиксации корреляций между признаками). Форма каждого слоя в части глубокой сети\alpha^{(l+1)} = f(W_{deep}^{(l)}a^{(l)} + b^{(l)}),lпредставляет количество слоев,f(\dot~)является функцией активации. Вся широкая и глубокая модель представлена ​​​​как:P(\hat{r_{ui}} = 1|x) = \sigma(W^T_{wide}\{x, \phi(x)\} + W_{deep}^{(l)}a^{(l_f)} + bias). в\sigmaпредставляет сигмовидную функцию,a^{(l_f)}Представляет собой активацию последнего слоя.

Точно так же перейдите к исходному тексту для других расширений этой модели.

Рекомендация, основанная на глубоко структурированных семантических моделях

Глубокая структурированная семантическая модель (DSSM) [65] представляет собой глубокую нейронную сеть для изучения семантических представлений сущностей в общем непрерывном семантическом пространстве и измерения их семантического сходства. Он широко используется в области поиска информации и хорошо подходит для топ-n рекомендаций [39, 182]. DSSM проецирует различные объекты в общее низкоразмерное пространство и вычисляет их косинусное сходство. Базовый DSSM состоит из MLP, поэтому мы поместили их в этот раздел. Обратите внимание, что более продвинутые нейронные слои, такие как слои свертки и максимального объединения, также могут быть легко интегрированы в DSSM.

Персонализированная рекомендация, основанная на глубоком семантическом сходстве (DSPR) [182], представляет собой персонализированную рекомендацию с учетом меток, в которой каждый пользовательx_uи предметыx_iПредставлен аннотациями меток и сопоставлен с общим пространством меток. косинусное сходствоsim(u,i)Используется для определения релевантности элементов и пользователей (или пользовательских предпочтений для элементов). Функция потерь DSPR определяется следующим образом:L = -\sum_{(u,i*)}[log(e^{sim(u,i*)}) - log(\sum_{(u, i^-) \in D^-})e^{sim(u, i^-)}]

в(u, i^-)представляет собой отрицательную выборку, случайно взятую из отрицательной пары пользователь-элемент.

Глубокая нейронная сеть с несколькими представлениями (MV-DNN) [39] предназначена для междоменных рекомендаций. Он рассматривает пользователя как сводное представление, а каждый домен (скажем, у нас есть Z доменов) как вторичное представление. Очевидно, что Z пар «пользователь-домен» имеют Z показателей схожести. На рисунке 3b показана структура MV-DNN. Функция потерь MV-DNN определяется как:

в\thetaпараметры модели,\gammaкоэффициент сглаживания,Y_u- это вывод пользовательского представления, a - это индекс текущего активного представления,R^{da}является входной областью представления a. MV-DNN можно расширить на множество доменов. Однако он основан на предположении, что если пользователи имеют схожие вкусы в одном домене, они должны иметь схожие вкусы и в других доменах. Интуитивно это предположение может быть необоснованным во многих случаях. Поэтому у нас должно быть некоторое предварительное понимание корреляции между различными доменами, чтобы в полной мере использовать MV-DNN.