0x00 сводка
Ранее мы представили сеть Deep Interest от Ali (далее именуемую DIN), а год спустя Ali обновил свою модель до сети Deep Interest Evolution Network (далее именуемой DIEN).
В этой серии статей, интерпретирующих документы DIN и DIEN и исходный код, разбираются некоторые концепции, связанные с глубоким обучением, и, кстати, реализация TensorFlow.
Эта статья является шестой в серии: Интерпретация документа DIEN, ссылаясь на большое количество статей, я искренне благодарю вас за то, что вы поделились, см. ссылку в конце статьи для получения подробной информации.
0x01 Схема диссертации
1.1 Информация о статье
- Название статьи: Сеть Deep Interest Evolution для прогнозирования рейтинга кликов
- Адрес бумаги:АР Вест V.org/PDF/1809.03…
- Кодовый адрес:GitHub.com/Mouna99/Вниз…
1.2 Основные точки зрения
1.2.1 Проблемы с DIN
DIN игнорирует изменения интереса.
- Интересы пользователей постоянно меняются. Например, предпочтения пользователей в отношении одежды будут меняться в зависимости от времени года, модных тенденций и личных вкусов, демонстрируя постоянную тенденцию к изменениям.
- На платформе Taobao интересы пользователей богаты и разнообразны, и эволюция каждого интереса в основном не влияет друг на друга.
- Кроме того, только интерес, связанный с целевым элементом, влияет на конечное поведение.
1.2.2 Инновации ДИЕН
Авторы предлагают, чтобы предыдущие методы оценки CTR напрямую рассматривали вектор представления производительности пользователя как интерес, а не моделировали скрытый интерес через конкретную производительность. Поэтому предлагается DIEN [Ключ — интерес напрямую приводит к непрерывному поведению, поэтому необходимо моделировать интерес пользователя и его эволюцию, а также анализировать интерес и эволюцию пользователя, связанные с целевым продуктом, на основе исторического поведения пользователя].
DIEN имеет два ключевых модуля:
- Одним из них является уровень извлечения процентов:
- Извлеките потенциальные интересы из производительности конкретных пользователей, моделируя процесс миграции интересов пользователей, в основном с использованием GRU + вспомогательная потеря. То есть DIN не учитывает отношения временных рядов между пользовательскими историями, в то время как DIEN использует GRU для моделирования временных рядов пользовательских историй;
- Недостатки прямого использования GRU: Скрытое состояние только выражает зависимости между режимами захвата и не представляет интереса. И щелчок по целевому объекту вызывается конечным интересом, поэтому GRU может только изучать зависимости между действиями и не может очень хорошо отражать интерес пользователя;
- инновации:так какСостояние интереса на каждом шаге ведет непосредственно к следующему последовательному действию.Поэтому автор предлагает: вспомогательную потерю, используя следующее поведение для наблюдения за изучением интересующего состояния;
- Один из них — уровень эволюции интересов:
- Разнообразие интересов приведет к феномену дрейфа интересов. В смежных посещениях намерения пользователя могут быть самыми разными, и одно из действий пользователя может зависеть от действий, совершенных давным-давно.
- На основе последовательности интересов, полученной на уровне извлечения интересов, добавляется механизм внимания для имитации процесса эволюции интересов, связанного с текущей целевой рекламой. Используйте AUGRU (GRU с воротами обновления механизма внимания, воротами обновления внимания, сокращенно AUGRU) для моделирования процесса изменения интересов;
- AUGRU усиливает влияние связанных интересов на эволюцию интересов, одновременно ослабляя влияние несвязанных интересов, вызванное дрейфом интересов. Внедряя механизм внимания в ворота обновления, AUGRU может реализовать процесс эволюции, представляющий особый интерес для различных целевых объектов.
Можно сказать, что на каждом шаге обучения мы вносим вспомогательную потерю в слой извлечения процентов. Механизм внимания был добавлен к слою развития интересов.
1.3 Объяснение терминов
скрытый интерес: поведение пользователя, взаимодействующего с системой, является носителем выражения заинтересованности.
Развитие интереса: под влиянием изменений внешней среды и внутреннего познания интересы пользователей со временем меняются. Взяв, к примеру, покупки одежды, предпочтения пользователей по интересам будут меняться в зависимости от сезона, модных тенденций и личных вкусов.
Поэтому, чтобы хорошо оценить CTR, необходимо понимать процесс изменения интересов пользователей при анализе интересов пользователей.
0x02 Общий обзор
2.1 Архитектура модели
Структура DIN выглядит следующим образом:
Подобно DIN, архитектура модели также состоит из общей архитектуры входного слоя + слоя внедрения + слоя соединения + многоуровневой полносвязной нейронной сети + выходного слоя;
В отличие от DIN, DIEN организует поведение пользователя в виде данных о последовательности и превращает простую единицу активации, выполненную с использованием внешнего продукта, в сеть GRU, основанную на внимании.
Сеть эволюции глубоких интересов разделена на несколько слоев снизу вверх:
- Уровень поведения: основная функция заключается в преобразовании продуктов, которые просматривал пользователь, в соответствующее встраивание и сортировке их в соответствии со временем просмотра, то есть в преобразовании исходных функций последовательности поведения класса id в последовательность поведения встраивания.
- Слой извлечения интересов: основная функция заключается в извлечении последовательности интересов пользователя на основе последовательности поведения путем имитации процесса миграции интересов пользователя.
- Уровень развития интереса: основная функция заключается в моделировании процесса развития интереса, связанного с текущей целевой рекламой, путем добавления механизма внимания на основе уровня извлечения интереса и моделирования процесса развития интереса, связанного с целевым элементом;
- Объедините представление интересов с векторами внедрения рекламы, профиля пользователя и контекста. Наконец, используйте MLP для завершения окончательного прогноза;
Подробнее:
- Пользовательская история определенно представляет собой временной ряд, и если она передается в RNN, можно считать, что последнее состояние содержит всю историческую информацию. Поэтому авторы используют двухуровневый GRU для моделирования интересов пользователей.
- Подайте небольшое количество вложений элементов, с которыми пользователь связывался в истории, в первый уровень GRU, и на выходе будет интерес пользователя в каждый момент. Этот слой называетсяInterest Extraction Layer
- Подайте выходные данные первого уровня в GRU второго уровня и используйте оценку внимания (рассчитанную на основе выходного вектора первого уровня и материала-кандидата) для управления воротами обновления GRU второго уровня. Этот слой называетсяInterest Evolving Layer.
- Последнее состояние уровня развития интересов используется как векторное представление интереса пользователя, которое передается в MLP вместе с функциями рекламы и контекста., чтобы предсказать рейтинг кликов.
0x03 Уровень извлечения процентов
3.1 Предыдущая работа
В документе DIEN упоминается, что некоторые предыдущие алгоритмы, вводящие RNN для обнаружения и использования зависимостей в последовательности поведения (то есть последовательности просмотренных продуктов), более эффективны, чем объединение непосредственно в последовательности поведения. Однако проблема с этими алгоритмами заключается в том, что выходные данные скрытого слоя RNN напрямую используются в качестве представления интересов пользователя. Встраивание продукта является истинным выражением продукта, а также прямым ответом на интерес пользователя.Выходной вектор скрытого слоя RNN может быть не в состоянии по-настоящему выразить интерес пользователя.
Потому что замечено, что интерес в текущий момент напрямую влияет на возникновение поведения в следующий момент, а ГРУ менее уместно для представления интереса. Таким образом, уровень извлечения процентов вводит контролируемое обучение и разрабатывает вспомогательную функцию потерь и потерь, цель которой состоит в том, чтобы использоватьПоведение следующего момента контролирует изучение интереса в текущий момент.. Это заставляет выходной скрытый слой RNN взаимодействовать с внедрением продукта, как показано вспомогательными потерями в левой части диаграммы архитектуры.
который:
- Поведение пользователя представляет собой последовательность данных, генерируемых временем, поэтому используется RNN структуры GRU;
- Текущий интерес пользователя напрямую приводит к генерации следующего поведения, поэтому вспомогательная функция потерь предназначена для наблюдения за изучением текущего интереса с поведением в следующий момент;
3.2 GRU
Базовой структурой уровня эволюции интересов является сеть GRU (Gated Recurrent Unit), как показано в желтой области архитектуры, то есть GRU используется для моделирования зависимостей между поведением пользователей.
Поведение пользователей в системе электронной коммерции разнообразно, и даже за такой короткий период времени, как две недели, историческая последовательность поведения очень длинная. Чтобы сбалансировать эффективность и производительность, мы используем GRU для моделирования поведения.
Входными данными ГРУ является отсортированная по времени последовательность поведения пользователя, то есть продукт, соответствующий поведению (вектор встраивания продукта, упорядоченный по временному шагу). По сравнению с традиционной моделью последовательности RNN и LSTM, GRU решает проблему исчезновения градиента RNN; по сравнению с LSTM, GRU имеет меньше параметров и более быструю сходимость обучения.
Параметры объясняются следующим образом:
- Предполагая, что t-й временной шаг является вводом e(t), ГРУ выводит скрытую единицу h(t);
- Пусть входной вектор e(t+1) следующего временного шага используется как положительная выборка, а отрицательная выборка e(t+1) ' выбирается случайным образом, и e(t+1) ' != e(t ) ;
- h(t) и положительный и отрицательный векторы выборок производят скалярное произведение соответственно;
3.3 Дополнительные потери
Чтобы скрытые состояния модели, структурированной последовательностями, эффективно представляли скрытые интересы, над скрытыми состояниями следует осуществлять дополнительный контроль, например, вводить информацию о ранжировании. В рекомендательной системепотеря рангашироко используется для ранжирования задач.
3.3.1 Дополнительные потери
Вспомогательные потери происходят от всех записей о кликах, а не от целевой рекламы, что полезно, чтобы избежать исчезновения градиента.Нажатые считаются положительными образцами, а ненажатые считаются отрицательными образцами.
DIEN определяет вспомогательные потери следующим образом:
3.3.2 Глобальная потеря
Глобальная функция потерь, используемая DIEN, выглядит следующим образом:
- Метка target — это функция потерь задачи CTR;
- Потери CTR и вспомогательные потери добавляются как потери всей сети для оптимизации;
- альфа — это гиперпараметр, который уравновешивает окончательный прогноз CTR и представление интереса;
3.3.3 Эффект дополнительных потерь
Авторы DIEN указали, что GRU может изучать только зависимости между действиями и не может хорошо отражать интересы пользователей. Цель метки содержит только информацию о контроле конечного интереса, а промежуточное историческое состояние ht не может получить информацию о контроле для руководства обучением. Интересы могут привести к множеству непрерывных действий, поэтому модель вводит дополнительные потери для повышения точности выражения интересов.
В частности, следует использовать поведение b(t+1) в момент времени t в качестве наблюдения для изучения вектора скрытого слоя ht в дополнение к использованию реального следующего поведения в качестве положительного образца.отрицательный примерВыбор осуществляется либо случайным образом из элементов, с которыми пользователь не взаимодействовал, либо из элементов, которые были показаны пользователю, но не были нажаты пользователем. Положительные и отрицательные выборки представляют собой t-й вектор встраивания элемента, по которому пользователь щелкнул/не щелкнул, соответственно.
Преимущества введения дополнительных потерь:
-
Помогите скрытому состоянию ГРУ лучше представлять интересы пользователей. Добавляются дополнительные потери, каждое скрытое состояние GRU представляет состояние интереса пользователя в момент времени , а объединение всех точек состояния интереса создает последовательность интереса;
-
В случае моделирования длинной последовательности градиентное распространение RNN может не сильно влиять на начало последовательности, введение вспомогательного контрольного сигнала в каждую часть последовательности может в определенной степени снизить сложность оптимизации;
-
Вспомогательная потеря может принести больше семантической информации для изучения слоя встраивания, а изученный элемент соответствует лучшему встраиванию.
3.4 Резюме
После уровня извлечения интересов, состоящего из GRU, вектор поведения пользователя b(t) дополнительно абстрагируется для формирования вектора состояния интересов h(t).
Подводя итог в одном предложении, функция слоя извлечения интересов состоит в том, чтобы выяснить взаимосвязь между товарами в последовательности поведения, а также извлечь и выразить интерес пользователя.
0x04 Слой эволюции интересов
Уровень развития интересов Основная цель уровня развития интересов — описать процесс эволюции интересов пользователей.
Интересы пользователей постоянно меняются:
- Предпочтения пользователей в определенный период времени имеют определенную концентрацию. Например, пользователь может продолжать покупать книги в определенный период времени и одежду в другой период времени;
- Каждый интерес имеет свою эволюционную тенденцию, и разного рода интересы редко влияют друг на друга, например, интересы покупки книг и покупки одежды в основном не связаны друг с другом;
Эта смена пользователей напрямую повлияет на решение пользователя о клике. Моделирование эволюции интересов пользователей имеет два преимущества:
- Отслеживание интересов пользователей позволяет нам включать больше исторической информации при изучении выражения конечного интереса;
- Прогнозирование CTR может быть лучше на основе меняющейся тенденции интереса;
4.1 Закон эволюции
С изменением внешней среды и внутреннего познания интересы пользователей также постоянно меняются, поэтому на поведение пользователя влияют разные интересы. По сравнению со слоем извлечения интереса, самой большой особенностью уровня эволюции интереса является введение механизма внимания, чтобы более целенаправленно имитировать путь развития интереса, связанный с целевой рекламой.
Модель рекомендаций никогда не может быть отделена от конкретных бизнес-сценариев. В среде электронной коммерции, такой как Alibaba, пользователи, скорее всего, будут интересоваться несколькими категориями продуктов одновременно. Например, покупая «механическую клавиатуру», они также просматривают товары в категории "одежда". Таким образом, когда целевым продуктом является электронный продукт, путь развития интереса, связанный с «механической клавиатурой», более важен, чем путь развития, связанный с «одеждой».
Эволюция пользовательского интереса имеет следующие закономерности:
- Дрейф интересов: Из-за разнообразия интересов интересы могут дрейфовать. У пользователей будет определенная концентрация интереса в определенный период времени. Например, пользователь может продолжать покупать книги в определенный период времени и одежду в другой период времени.
- Интерес индивидуальный: Интерес имеет свою тенденцию развития, и разные виды интересов редко влияют друг на друга, например, интересы покупки книг и покупки одежды в принципе не связаны. Мы фокусируемся только на процессе эволюции, связанном с целевым элементом.
4.2 AUGRU
Основываясь на приведенных выше правилах, уровень развития интересов вводит механизм внимания через AUGRU (GRU с воротами Attentional Update) и вычисляет корреляцию, используя состояние интереса и целевой элемент.AUGRU усиливает влияние связанных интересов, ослабляя влияние нерелевантных интересов, а затем зафиксировать интерес и эволюцию, связанные с целевым продуктом.
То есть, анализируя характеристики эволюции интереса, авторыСочетание способности локальной активации механизма внимания и способности ГРУ изучать последовательность для моделирования эволюции интереса.. Таким образом, на каждом этапе ГРУ механизм внимания может усиливать влияние относительного интереса и ослаблять помехи от дрейфа интереса.
При представлении интереса пользователя роль уровня развития интереса состоит в том, чтобы фиксировать шаблон развития интереса, связанный с кандидатом, как показано в красной области на диаграмме архитектуры, где используется второй GRU. Взаимодействуйте вектор внедрения кандидата с выходным скрытым вектором первого GRU, чтобы сгенерировать оценку внимания. Следует отметить, что, в отличие от DIN, оценка внимания здесь нормализована softmax. Оценка внимания отражает взаимосвязь между целевым элементом и текущим состоянием интереса. Чем выше корреляция, тем выше оценка.
4.3 attention
Внимание рассчитывается следующим образом:
Как добавить механизм внимания в ГРУ? пробовали 3 способа
-
GRU with attentional input (AIGRU): Включает механизм внимания во ввод.
AIGRU использует оценку внимания, чтобы влиять на входные данные слоя эволюции интересов. То есть коэффициент внимания напрямую умножается на ввод. В идеале, имея меньше связанных интересов и меньшие входные значения, мы можем смоделировать эволюционную тенденцию интересов, связанных с целевым элементом. Однако AIGRU не показала хороших результатов. Поскольку даже нулевой ввод изменяет скрытое состояние ГРУ, меньший относительный интерес влияет на изучение эволюции интереса.
-
Внимание на базе ГРУ (АГРУ):Замена показателя внимания шлюзом обновления ГРУ (использование показателя внимания для управления обновлением скрытого состояния) напрямую изменяет скрытое состояние. То есть коэффициент внимания напрямую заменяется шлюзом обновления ГРУ, а скрытое состояние напрямую обновляется.
AGRU использует оценку внимания, чтобы напрямую контролировать обновление скрытого состояния, ослабляя влияние менее релевантных интересов во время эволюции интересов. Внедрение внимания в GRU может улучшить влияние механизма внимания и помочь AGRU преодолеть недостатки AIGRU. Хотя AGRU может использовать показатель внимания для непосредственного управления обновлением скрытого состояния, он использует скаляр (оценку внимания) вместо вектора, игнорируя разницу в важности между различными параметрами.
-
ГРУ с воротами обновления внимания (AUGRU):Добавьте показатель внимания к воротам обновлений ГРУ:
В AUGRU исходная информация о размере шлюза обновления сохраняется, и все размеры шлюза обновления масштабируются в соответствии с оценкой внимания, в результате чего менее связанные интересы оказывают меньшее влияние на скрытое состояние. AUGRU может более эффективно избегать помех, вызванных дрейфом интереса, и способствовать плавному развитию относительного интереса.
AUGRU работает лучше всего. В этой статье оценка внимания умножается на шлюз обновления, чтобы заменить исходный шлюз обновления, который называется AUGRU, где A относится к вниманию, а U относится к шлюзу обновления.
Давайте посмотрим, что не так со структурой DIEN. GRU представляет собой последовательную структуру расчета, которая рассчитывается шаг за шагом в соответствии с временным шагом. DIEN имеет два ГРУ, и второму ГРУ также необходимо уделять внимание на основе результатов первого ГРУ, поэтому второе ГРУ должно дождаться завершения всех расчетов первого ГРУ, прежде чем начинать расчет, а два блока ГРУ не могут вычисляться параллельно.Поэтому может возникнуть проблема большой задержки.Чем длиннее последовательность, тем дольше может быть задержка. В статье вводится, что длина входной последовательности индустриальной сцены составляет 50, и накапливается задержка двух ГРУ, что эквивалентно задержке длины последовательности 100.
4.4 Особенности
Преимущества моделирования эволюции интересов заключаются в следующем:
- Модуль эволюции процентной ставки может предоставить более актуальную историческую информацию для окончательного представления процентной ставки.
- Лучше прогнозировать рейтинг кликов целевого элемента в соответствии с интересующей тенденцией развития.
Слой развития интереса сочетает в себе локальную активационную способность механизма внимания и способность изучения последовательности ГРУ для достижения цели моделирования развития интереса.
0x05 Сводка
Основные вклады DIEN заключаются в следующем:
- Сосредоточив внимание на феномене эволюции интереса в системе электронной коммерции, предлагается новая сетевая архитектура для моделирования процесса эволюции интереса. Модель эволюции интересов делает представление интересов более богатым, а предсказание CTR более точным.
- В отличие от непосредственного принятия поведения за интерес, в DIEN специально разработан уровень извлечения интереса. Вспомогательная потеря предлагается решить проблему, заключающуюся в том, что скрытое состояние ГРУ выражает слабый интерес.
- Разработан слой эволюции интересов. Слой развития интереса эффективно имитирует процесс развития интереса, связанный с целевым элементом.
В следующей статье будет представлена общая архитектура исходного кода модели, так что следите за обновлениями.
0xEE Личная информация
★★★★★★Думая о жизни и технологиях★★★★★★
Публичный аккаунт WeChat:мысли Росси
Если вы хотите получать своевременные новости о статьях, написанных отдельными лицами, или хотите видеть технические материалы, рекомендованные отдельными лицами, обратите внимание.
ссылка 0xFF
【Чтение бумаги】 Сеть Deep Interest Evolution для прогнозирования кликабельности
Также прокомментируйте сеть Deep Interest Evolution Network
zhuanlan.zhihu.com/p/134170462)
[Заметки для чтения] Сеть Deep Interest Evolution для прогнозирования рейтинга кликов
Понимание RNN, LSTM и GRU из анимированных графиков
Машинное обучение Ли Хунъи Национального Тайваньского университета (1) — RNN и LSTM
Машинное обучение Ли Хунъи (2016)
Знакомство с сетью глубокого интереса DIN и анализ исходного кода
[Введение в статью] Модель прогнозирования Ali CTR 2019 — DIEN (сеть развития глубокого интереса)