Прогноз CTR Али (2): сеть Deep Interest Evolution

Эта статья, опубликованная в сентябре 2018 года, представляет собой улучшенную версию предыдущего стандарта DIN. мы вПрогноз CTR Али (1): Deep Interest NetworkКак уже упоминалось, они пытались использовать LSTM для изучения особенностей сериализованных данных, но результаты для DIN не улучшились. DIEN улучшила этот момент.

Сеть развития глубокого интереса (DIEN)

Мы опускаем предысторию, особенно часть базовой модели, если вы хотите прочитать ее, вы можете найти ее в предыдущей статье. Теперь мы непосредственно вводим структуру DIEN. Самая большая особенность DIEN заключается не только в том, чтобы найти интерес пользователя, но и в том, чтобы понять процесс эволюции интереса пользователя. Авторы объединяют GRU в сеть, чтобы фиксировать меняющиеся последовательности. Если вас интересует введение ГРУ, вы можете прочитать этоUnderstanding GRU networks.

Два приведенных выше изображения представляют собой структурные схемы DIN и DIEN соответственно, мы можем их сравнить.

Видно, что DIEN по-прежнему имеет уровень внедрения, и метод внедрения такой же, как и раньше. Методы обработки других профилей пользователей, целевых AD и контекстных функций такие же, за исключением того, что поведение пользователя организовано в виде данных последовательности, а блок активации, который просто завершается внешним продуктом, превращается в основанный на внимании элемент. ГРУ Интернет.

Interest Extractor Layer

Теперь давайте поговорим конкретно об уровне извлечения интересов, на котором расположен блок GRU. Как следует из названия, основная цель этого уровня — извлечь интерес из встраиваемых данных. Но интерес пользователя в определенное время связан не только с текущим поведением, но и с предыдущим поведением, поэтому авторы используют модуль GRU для извлечения интереса.

Это выражение для подразделения ГРУ, где i_t = e_b[t] Представляет вложение поведения в момент времени t, $\sigma$ сигмовидная функция,Представляет поэлементное умножение.

Они также представили $L_{aux}~Loss$ , используемый для помощи извлечению процентов. потому что обычный h_t Информацию можно извлечь только из встраивания, но не обязательно интереса. Окончательное действие определяется только конечным интересом, а для сохранения промежуточного государственного интереса нужны другие стимулы. представлен $L_{aux}~Loss$ следующее

и установите конечную цель модели как $L = L_{target} + L_{aux}$ , что позволяет GRU извлекать интересующую информацию в промежуточном состоянии.

Interest Evolution Layer

Возьмем, к примеру, интерес пользователя к одежде: поскольку сезоны и модные тенденции продолжают меняться, интерес пользователя также будет меняться.

Отслеживание интереса пользователя позволяет нам включать больше исторической информации при изучении выражения конечного интереса.
Улучшенные прогнозы CTR на основе меняющихся тенденций интереса. А интерес подчиняется следующим правилам в процессе изменения:
Дрейф интереса: будет определенная концентрация интереса пользователей в определенный период времени. Например, пользователь может продолжать покупать книги в определенный период времени и одежду в другой период времени.
Интерес индивидуальный: Интерес имеет свою тенденцию развития, и разные виды интересов редко влияют друг на друга, например, интересы покупки книг и покупки одежды в принципе не связаны.

Чтобы воспользоваться этими двумя функциями синхронизации, нам нужно добавить еще один уровень вариантов GRU и добавить механизм внимания, чтобы найти интерес, связанный с целевой рекламой. Среди них функцию внимания можно выразить как:

e_a является вложением целевой AD.

Существует много механизмов для объединения внимания и ГРУ,

AIGRU:
AGRU: $h_t' = (1 - a_t) * h_{t - 1}' + a_t * \tilde{h_t'}$
AUGRU: $\tilde{u_t'} = a_t * u_t';~ h_t' = (1 - \tilde{u_t'}) \circ h_{t-1}' + \tilde{u_t'} \circ \tilde{h_t'}$

Эти три механизма опробованы в статье.

Results

В статье были проведены эксперименты как с общедоступными данными, так и с собственными наборами данных. Результаты офлайн-экспериментов следующие: