Во второй части мы резюмируем рекомендательную систему, основанную на MLP, и здесь я перехватываю только часть исходного текста. Аннотированные персонажи и библиографию, используемые в этом блоге, можно найти по адресуСистема рекомендаций на основе глубокого обучения (1) Обзорнайти в. Разделим эту работу на следующие части:
Нейросетевые расширения традиционных алгоритмов рекомендаций
Многие существующие модели рекомендаций основаны на линейных методах. MLP можно использовать для добавления нелинейных преобразований к существующим методам RS.
Neural Collaborative Filtering
В большинстве случаев рекомендация рассматривается как двустороннее взаимодействие между предпочтениями пользователя и характеристиками товара. Например, матричная факторизация (MF) разлагает матрицу оценок на низкоразмерные скрытые факторы пользователя/элемента. Естественно создавать двойные нейронные сети для имитации двунаправленного взаимодействия между пользователями и элементами. Две репрезентативные работы — матричная факторизация нейронной сети (NNMF) [37] и нейронная совместная фильтрация (NCF) [53].
На рис. 2а показана архитектура NCF. ПредполагатьиПредставлять характеристики пользователей и элементов (например, профиль пользователя и характеристики элементов) или просто пользователей.и предметыоднократное кодирование . Его оценочная функция определяется следующим образом:,вэто сеть MLP,являются параметрами сети. Традиционный МФ можно рассматривать как частный случай НКФ. Следовательно, удобно объединить матричную факторизацию с MLP, чтобы сформулировать более общую модель, которая использует линейность MF и нелинейность MLP для улучшения качества рекомендаций. Всю сеть можно обучить с помощью взвешенных квадратов потерь (для явной обратной связи) или бинарных кросс-энтропийных потерь (для неявной обратной связи).
Deep Factorization Machine
DeepFM [47] — это сквозная модель, которая органично интегрирует FM и MLP. Он может моделировать взаимодействия высокого порядка с глубокими нейронными сетями и взаимодействия низкого порядка с FM. Машины факторизации (FM) используют операции сложения и внутреннего произведения для захвата линейных и попарных взаимодействий между функциями (см. уравнение (1) в [119] для более подробной информации). MLP использует нелинейные активации и глубокие структуры для моделирования взаимодействия функций высокого порядка. То, как MLP сочетается с FM, вдохновлено широкими и глубокими сетями. Он заменяет широкий компонент нейронной интерпретацией FM. По сравнению с широкими и глубокими моделями, DeepFM не требует утомительного проектирования функций. Рисунок 2b иллюстрирует структуру DeepFM. Вход DeepFM состоит из пары(идентификация и характеристики пользователя и предмета), составленные из данных m-поля. Для простоты выходы ФМ и МЛП обозначаются каки. Оценка прогноза рассчитывается как:.Представляет сигмовидный метод. Существует множество улучшенных версий вышеуказанных методов, я не буду их здесь повторять, заинтересованные читатели могут перейти к исходному тексту.
Особенности обучения с MLP
Представление признаков с использованием MLP очень простое и эффективное, даже если оно не такое мощное, как автоэнкодеры, CNN и RNN.
wide & deep model
Эта общая модель (показана на рисунке 3а) может решить как проблемы регрессии, так и проблемы классификации, но изначально она была представлена для рекомендации приложений в Google Play [20]. Компонент широкого обучения представляет собой однослойный персептрон, который также можно рассматривать как обобщенную линейную модель. Компонент глубокого обучения представляет собой многослойный персептрон. Обоснование объединения этих двух методов обучения заключается в том, что это позволяет алгоритмам рекомендаций иметь возможности памяти и обобщения. Память, достигаемая компонентом широкого обучения, представляет собой возможность захвата прямых функций из исторических данных. Между тем, компонент глубокого обучения захватывает способность к обобщению, создавая более общие и абстрактные представления. Эта модель может повысить точность и разнообразие рекомендаций.
Формально широкую компоненту можно представить в виде, линейная модель.представляет набор входных данных, состоящий из исходных входных признакови преобразует (например, крест композиция признаков после преобразования для фиксации корреляций между признаками). Форма каждого слоя в части глубокой сети,представляет количество слоев,является функцией активации. Вся широкая и глубокая модель представлена как:. впредставляет сигмовидную функцию,Представляет собой активацию последнего слоя.
Точно так же перейдите к исходному тексту для других расширений этой модели.
Рекомендация, основанная на глубоко структурированных семантических моделях
Глубокая структурированная семантическая модель (DSSM) [65] представляет собой глубокую нейронную сеть для изучения семантических представлений сущностей в общем непрерывном семантическом пространстве и измерения их семантического сходства. Он широко используется в области поиска информации и хорошо подходит для топ-n рекомендаций [39, 182]. DSSM проецирует различные объекты в общее низкоразмерное пространство и вычисляет их косинусное сходство. Базовый DSSM состоит из MLP, поэтому мы поместили их в этот раздел. Обратите внимание, что более продвинутые нейронные слои, такие как слои свертки и максимального объединения, также могут быть легко интегрированы в DSSM.
Персонализированная рекомендация, основанная на глубоком семантическом сходстве (DSPR) [182], представляет собой персонализированную рекомендацию с учетом меток, в которой каждый пользовательи предметыПредставлен аннотациями меток и сопоставлен с общим пространством меток. косинусное сходствоИспользуется для определения релевантности элементов и пользователей (или пользовательских предпочтений для элементов). Функция потерь DSPR определяется следующим образом:
впредставляет собой отрицательную выборку, случайно взятую из отрицательной пары пользователь-элемент.
Глубокая нейронная сеть с несколькими представлениями (MV-DNN) [39] предназначена для междоменных рекомендаций. Он рассматривает пользователя как сводное представление, а каждый домен (скажем, у нас есть Z доменов) как вторичное представление. Очевидно, что Z пар «пользователь-домен» имеют Z показателей схожести. На рисунке 3b показана структура MV-DNN. Функция потерь MV-DNN определяется как:
впараметры модели,коэффициент сглаживания,- это вывод пользовательского представления, a - это индекс текущего активного представления,является входной областью представления a. MV-DNN можно расширить на множество доменов. Однако он основан на предположении, что если пользователи имеют схожие вкусы в одном домене, они должны иметь схожие вкусы и в других доменах. Интуитивно это предположение может быть необоснованным во многих случаях. Поэтому у нас должно быть некоторое предварительное понимание корреляции между различными доменами, чтобы в полной мере использовать MV-DNN.