[Диссертация] ВАМ

Введение

Креативность играет очень важную роль в отображении продуктов в электронной коммерции.Продавцы обычно создают несколько идей для всесторонней демонстрации, поэтому демонстрируют наиболее привлекательный дизайн.Максимальный рейтинг кликов (CTR)является решающим. Тем не менее, креативные рекомендации продуктов более подвержены проблемам холодного запуска, чем традиционные рекомендации продуктов, потому что данные о кликах пользователей более скудны, а креативы также могут часто меняться. В этой статье предлагается элегантный метод интеграции визуальных априорных знаний в бандитскую модель, основанный наNeuralllinearПлатформа рассматривает приблизительные байесовские нейронные сети в системе выборки Томпсона, используя способность нейронных сетей к обучению и методы апостериорной выборки. В общем в статье:

Предложите визуальную модель ранжирования (называемую VAM), которая способна оценивать новые идеи на основе их внешнего вида.
Принимая изученные визуальные прогнозы в качестве априорных, предлагается улучшенная модель гибридного бандита (HBM) для получения более точных апостериорных оценок за счет использования большего количества данных наблюдений.
Создание нового большого набора данных объявленийCreativerank, обширные эксперименты с этим набором данных и общедоступным набором данных Mushroom демонстрируют эффективность метода.

Предварительные знания и связанная с ними работа

Предварительные знания

описание проблемы

Учитывая продукт, цель состоит в том, чтобы определить, какой креатив является наиболее привлекательным. В то же время необходимо оценить неопределенность прогноза, чтобы обеспечить максимальную совокупную доходность в долгосрочной перспективе. В системах онлайн-рекламы, когда реклама показывается пользователю как креативный кандидат, сцена считается показом.

Предположим, есть $N$ товар, определяемый как $\{I^1,I^2,...,I^n,...,I^N\}$ , каждый предмет $I^n$ Состоит из набора идей, написания $\{C^n_1,...,C^n_m,...,C^n_M\}$ . для товаров $I^n$ , цель обучения состоит в том, чтобы найти творческий порядок:

C^n=\argmax_{c\in \{C^n_1,...,C^n_M\}} CTR(c)

здесь $CTR()$ Указывает рейтинг кликов для этого объявления.

Один из способов получить CTR — сложить последние клики и показы и рассчитать их CTR:

\hat{CTR}(C^n_m)=\frac{click(C^n_m)}{impression(C^n_m)}

$click(),impression()$ выразить творчество $C^n_m$ кликов и показов.

С этим методом расчета есть проблема: может не хватать достаточного количества показов, особенно для некоторыхХолодный запусктворческий подход.

Другой подход заключается в изучении функции прогнозирования на основе контекстных данных в исторических данных (таких как содержимое изображения и т. д.). $N()$ ,сделать:

\hat{CTR}(C^n_m)=N(C^n_m)

$N()$ Вход $C^n_m$ , изучая исторические данные, собранные последовательные данные можно выразить как:

D=\{(C_1,y_1),...,(C_t,y_t),...,(C_{|D|},y_{|D|})\}

$y_t \in \{0,1\}$ представляет собой заметку, указывающую, был ли нажат креатив.

построение набора данных

Мы предоставляем крупномасштабный творческий набор данных, состоящий из креативного изображения и данных о последовательных впечатлениях, которые можно использовать для оценки визуальных прогнозов и стратегий исследования и эксплуатации (E&E).

В период с 1 июля 2020 г. по 1 августа 2020 г. с платформы медийной рекламы Alibaba было собрано большое количество разнообразных креативных материалов, в общей сложности около 215 миллионов показов, 500 827 продуктов и 1 707 733 рекламных креатива.

стратегия случайной регистрацииОнлайн-система использует стратегию случайной регистрации, случайным образом привлекая идеи для сбора объективных наборов данных, а алгоритм Bandit изучает стратегию с помощью интерактивных данных.

Выровняйте творческий жизненный циклИз-за сложности онлайн-среды CTR одной и той же идеи в разные периоды разные, и идея будет переработана или удалена, что приведет к несогласованному времени экспозиции (рис. 3(а)). Чтобы избежать шума, вызванного разными временными интервалами, собираются только перекрывающиеся периоды между креативами-кандидатами (см. рис. 3(b)), а время перекрытия составляет от 5 до 14 дней, охватывая жизненный цикл креатива от холодного запуска до относительно стабильная стадия.

Разделение данных обучения/валидации/тестирования500 827 продуктов были случайным образом разделены на 300 242 обучающих образца, 100 240 проверочных образцов и 100 345 тестовых образцов, содержащих 1 026 378/340 449/340 906 творческих образцов соответственно.

содержание исследования

Обзор дизайна

Общая структура гибридной модели Bandit с визуальными априорами, предложенная в этой статье, показана на рис. 4. На рис. 4 (a) сеть извлечения признаков $N_{feat}$ Ввод нескольких идей для продукта одновременно и вывод $d$ размерные промежуточные элементы $\{f^n_1,...,f^n_m,...,f^n_M\}$ , а затем использовать полносвязный слой для вычисления его оценки $\{s^n_1,...,s^n+m,...,s^n_M\}$ .

Затем для управления процессом обучения вводятся потеря рейтинга по списку и вспомогательная потеря регрессии.Такая многоцелевая оптимизация помогает модели не только сосредоточиться на творческом рейтинге, но и учитывать числовой диапазон CTR, который способствует следующему Бандитская модель. Кроме того, поскольку шум данных является распространенной проблемой в реальных приложениях, предлагается несколько практических решений для уменьшения случайного и злонамеренного шума. После вышеперечисленных шагов модель может оценить качество креатива непосредственно по его визуальному содержанию, даже недавно загруженной работе без какой-либо исторической информации.

Чему вы научитесь позже, используя HBM $f^n_m$ Включая контекстную информацию и обновляя стратегию обучения путем взаимодействия с онлайн-наблюдениями, как показано на рис. 4(b), гибридная модель сочетает в себе предсказание продуктов и предсказание идей, что является более гибким для сложных промышленных данных.

VAM: Visual-aware Ranking Model

для товаров $I^n$ , используя сеть извлечения признаков $N_{feat}$ извлекать высокоуровневые визуальные представления идей, используя линейный слой для создания первого $n$ элемент первый $m$ Оценка творческой привлекательности:

f^n_m=N_{feat}(C^n_m)\\ \ \\ s^n_m=f^{nT}_mw

здесь $w$ Представляет изученные параметры линейного слоя.

Потеря рейтинга на основе списка

Чтобы узнать относительный порядок креативности, нужно объединить список прогнозируемых оценок и ground-truthCTR индивидуально сопоставляются с распределением вероятности перестановки, а метрика между этими распределениями затем используется в качестве функции потерь.Стратегия сопоставления и метрики оценки должны гарантировать, что идеи-кандидаты с более высокими баллами получают более высокий рейтинг.

вероятности перестановки и ex $k$ Определение рейтинга см.ссылка на бумагу. Вдохновленный этим, документ упрощает вероятность первой идеи следующим образом:

p^n_m=\frac{exp(s^n_m)}{\sum^M_{i=1}exp(s^n_i)}

Экспоненциальная функция, основанная на вероятности топ-1, является как масштабно-инвариантной, так и трансляционно-инвариантной, и ее соответствующая метка:

y_{rank}(C^n_m)=\frac{exp(CTR(C^n_m),T)}{\sum^M_{i=1}exp(CTR(C^n_i),T)}

$exp(\cdot,T)$ для температуры $T$ Экспоненциальная функция , потому что $CTR(C^n_m)$ является относительно небольшой дробью, поэтому используйте $T$ настроить его шкалу так, чтобы вероятность выборки топ-1 была близка к 1.

Используя кросс-энтропию в качестве меры, товар $I^n$ Стоимость потерь составляет:

\mathcal{L}^n_{rank}=-\sum_{m}y_{rank}(C^n_m)\log(p^n_m)

При такой целевой функции модель ориентируется на сравнение идей в рамках одного продукта, ориентируется на вероятность топ-1, так как соответствует реальной сцене, за показ будет показана только одна идея.

Вспомогательная регрессионная потеря на основе точек

Функция ранжирования потерь ограничивает только порядок вывода, а не числовую шкалу вывода, поэтому в качестве регуляризатора добавляется точечная регрессия:

\mathcal{L}^n_{reg}=\sum_m||CTR(C^n_m)-s^n_m||_2

$|| \cdot||$ представляет L2-норму.

Окончательное значение потерь получается путем сложения двух вышеуказанных потерь:

\mathcal{L}^n=\mathcal{L}^n_{rank}+\gamma\mathcal{L}^n_{reg}

в тексте $\gamma =0.5$ .

снизить уровень шума

Чтобы избежать влияния шума, VAM обрабатывает данные двумя способами.

сглаживание этикетки: эмпирический байесовский метод сглаживания оценок CTR. Предполагая, что количество кликов подчиняется биномиальному распределению, CTR подчиняется априорному распределению:

click(C^n_m) \sim binomial(Impression(C^n_m),CTR(C^n_m))\\ \ \\ CTR(C^n_m)\sim Beta(\alpha,\beta)

$Beta(\alpha,\beta)$ это предварительное распределение CTR.

После наблюдения большего количества кликов апостериорное распределение и сглаженный CTR можно получить путем сопряжения биномиального распределения и априорного распределения. $\hat{CTR}$ :

\hat{CTR}(C^n_m)\frac{click(C^n_m)+\alpha}{impression(C^n_m)+\alpha+\beta}

в $\alpha,\beta$ Значения могут быть рассчитаны с использованием оценки максимального правдоподобия с использованием исторических данных.

взвешенная выборка: стратегия выборки для процесса обучения. Вместо того, чтобы рассматривать каждую выборку одинаково, взвешенная выборка больше фокусируется на продуктах с достаточным количеством показов и более надежным CTR за счет:

p^n=g(impression(I^n))

в $g()$ представляет собой логарифм снятого оттиска, $p^n$ Указывает продукт $I^n$ вес выборки.

HBM: Hybrid Bandit Model

HBM предлагает элегантную и эффективную стратегию для решения дилеммы E&E путем использования визуальных априорных значений и обновления апостериорных значений путем смешивания моделей Bandit, основанных на нейронной линейной структуре, с использованием байесовской линейной регрессии на извлеченных визуальных представлениях, предполагая, что в режиме онлайн данные обратной связи генерируются как следует:

y=f^T\tilde{w}+\epsilon

$y$ данные о кликах/отсутствии кликов, $f$ Представляет визуальное представление, извлеченное VAM, которое необходимо изучить здесь. $\tilde{w}$ Распределение неопределенности , используется для улучшения процесса принятия решений по ЭиО. $\epsilon$ — независимая, равнонормально распределенная случайная величина, то есть:

\epsilon \sim \mathcal{N}(0,\sigma^2)

Согласно теореме Байеса, если $\tilde{w},\sigma^2$ Априорное распределение сопряжено с функцией правдоподобия данных, тогда его апостериорное распределение вероятностей может быть получено аналитически. Затем используйте апостериорную выборку (также называемую выборкой Томпсона) для решенияДилемма E&E, сохраняя модель в обратном порядке и выбирая идеи на основе оптимальных вероятностей. $\tilde{w},\sigma^2$ Предшествующее совместное распределение моделируется следующим образом:

\pi(\tilde{w},\sigma^2)=\pi(\tilde{w}|\sigma^2)\pi(\sigma^2)\\ \ \\ \sigma^2 \sim IG(a,b)\ and\ \tilde{w}|\sigma^2 \sim\mathcal{N}(\mu,\sigma^2\Sigma^{-1})

$IG()$ представляет собой обратную гамму с гиперпараметрами, установленными на $a_0=b_0=\eta>1$ . $\mathcal{N}()$ с параметрами по умолчанию для распределения Гаусса $\Sigma_0=\lambda Id$ . в, $\mu_0$ устанавливаются как изученные веса в VAM $w$ .

На основе сопряженного априора, который со временем $t$ Апостериор можно рассчитать как:

$f\in \mathbb{R}^{t\times d}$ представляет собой матрицу, содержащую контекстуальные признаки предыдущих впечатлений, $y \in \mathbb{R}^{t\times 1}$ Вознаграждение за отзыв. в $t$ После обновления вышеуказанных параметров при каждом показе получается распределение веса при оценке неопределенности. Из изученного дистрибутива $\mathcal{N}(\mu(t),\sigma(t)^2\Sigma(t)^{-1})$ Залезай $w(t)$ , и выберите пункт по формуле ниже $I^n$ Лучшие идеи для:

C^n=\argmax_{c\in\{C^n_1,...,C^n_M\}}(\mathcal{N}_{feat}(c)))^Tw(t)

Представленная выше модель представляет собой распределение весов для всех продуктов. Это простое линейное предположение хорошо работает для небольших наборов данных, но не так хорошо при работе с промышленными данными. Например, яркие и яркие цвета более привлекательны для женских топов, а простые цвета больше подходят для цифровых аксессуаров 3C. В дополнение к этому аспекту продукта идея может содержать уникальный атрибут дизайна, который не выражается через общие веса, поэтому VAM должен иметь как общие, так и отдельные веса.

Чтобы достичь этого, расширив предыдущую формулу, чтобы объединить восприятие продукта и линейный термин для конкретной идеи, для идеи. $C^n_m$ , его уравнение линейной регрессии можно переписать как:

y^n_m=f^{nT}_mw^n+f^{nT}_mw^n_m

$w^n,w^n_m$ Они оптимизированы по уравнению 18 для восприятия продукта и конкретных творческих параметров. Кроме того, VAM предлагает стратегию слияния для адаптивного объединения этих двух терминов вместо простого добавления, как показано ниже:

y^n_m=(1-\lambda) f^{nT}_mw^n+\lambda f^{nT}_mw^n_m

$\lambda=1+exp(\frac{-impression(I^n+\theta_2)}{\theta_1})$ , которая представляет собой сигмовидную функцию с параметрами настройки $\theta_1$ и смещение $\theta_2$ .

Вышеупомянутый процесс показан в Алгоритме 1:

эксперимент

Метод измерения

Cumulative regretЧасто используется для оценки бандитской модели, которая определяется как:

Regret=E[r^*-r]

здесь $r^*$ Совокупное вознаграждение за оптимальную политику, т. е. в данной среде, всегда выбирает политику с поведением с наивысшим ожидаемым вознаграждением. В частности, VAM выбирает оптимальные идеи для своего набора данных и вычисляетRegretза:

Regret=\frac{\sum^N_{n=1}click(C^n)}{\sum^N_{n=1}impression(C^n)}-sCTR

в $sCTR$ Метод расчета показан в Алгоритме 2: