[Диссертация] ВАМ

алгоритм

Оригинальная ссылка

Введение

Креативность играет очень важную роль в отображении продуктов в электронной коммерции.Продавцы обычно создают несколько идей для всесторонней демонстрации, поэтому демонстрируют наиболее привлекательный дизайн.Максимальный рейтинг кликов (CTR)является решающим. Тем не менее, креативные рекомендации продуктов более подвержены проблемам холодного запуска, чем традиционные рекомендации продуктов, потому что данные о кликах пользователей более скудны, а креативы также могут часто меняться. В этой статье предлагается элегантный метод интеграции визуальных априорных знаний в бандитскую модель, основанный наNeuralllinearПлатформа рассматривает приблизительные байесовские нейронные сети в системе выборки Томпсона, используя способность нейронных сетей к обучению и методы апостериорной выборки. В общем в статье:

  • Предложите визуальную модель ранжирования (называемую VAM), которая способна оценивать новые идеи на основе их внешнего вида.
  • Принимая изученные визуальные прогнозы в качестве априорных, предлагается улучшенная модель гибридного бандита (HBM) для получения более точных апостериорных оценок за счет использования большего количества данных наблюдений.
  • Создание нового большого набора данных объявленийCreativerank, обширные эксперименты с этим набором данных и общедоступным набором данных Mushroom демонстрируют эффективность метода.

Предварительные знания и связанная с ними работа

Предварительные знания

описание проблемы

Учитывая продукт, цель состоит в том, чтобы определить, какой креатив является наиболее привлекательным. В то же время необходимо оценить неопределенность прогноза, чтобы обеспечить максимальную совокупную доходность в долгосрочной перспективе. В системах онлайн-рекламы, когда реклама показывается пользователю как креативный кандидат, сцена считается показом.

Предположим, естьNNтовар, определяемый как{I1,I2,...,In,...,IN}\{I^1,I^2,...,I^n,...,I^N\}, каждый предметInI^nСостоит из набора идей, написания{C1n,...,Cmn,...,CMn}\{C^n_1,...,C^n_m,...,C^n_M\}. для товаровInI^n, цель обучения состоит в том, чтобы найти творческий порядок:

Cn=arg max.cе{C1n,...,CMn}CTR(c)C^n=\argmax_{c\in \{C^n_1,...,C^n_M\}} CTR(c)

здесьCTR()CTR()Указывает рейтинг кликов для этого объявления.

Один из способов получить CTR — сложить последние клики и показы и рассчитать их CTR:

CTR^(Cmn)=click(Cmn)impression(Cmn)\hat{CTR}(C^n_m)=\frac{click(C^n_m)}{impression(C^n_m)}

click(),impression()click(),impression()выразить творчествоCmnC^n_mкликов и показов.

С этим методом расчета есть проблема: может не хватать достаточного количества показов, особенно для некоторыхХолодный запусктворческий подход.

Другой подход заключается в изучении функции прогнозирования на основе контекстных данных в исторических данных (таких как содержимое изображения и т. д.).N()N(),сделать:

CTR^(Cmn)=N(Cmn)\hat{CTR}(C^n_m)=N(C^n_m)

N()N()ВходCmnC^n_m, изучая исторические данные, собранные последовательные данные можно выразить как:

D={(C1,y1),...,(Ct,yt),...,(CD,yD)}D=\{(C_1,y_1),...,(C_t,y_t),...,(C_{|D|},y_{|D|})\}

ytе{0,1}y_t \in \{0,1\}представляет собой заметку, указывающую, был ли нажат креатив.

построение набора данных

Мы предоставляем крупномасштабный творческий набор данных, состоящий из креативного изображения и данных о последовательных впечатлениях, которые можно использовать для оценки визуальных прогнозов и стратегий исследования и эксплуатации (E&E).

В период с 1 июля 2020 г. по 1 августа 2020 г. с платформы медийной рекламы Alibaba было собрано большое количество разнообразных креативных материалов, в общей сложности около 215 миллионов показов, 500 827 продуктов и 1 707 733 рекламных креатива.

стратегия случайной регистрацииОнлайн-система использует стратегию случайной регистрации, случайным образом привлекая идеи для сбора объективных наборов данных, а алгоритм Bandit изучает стратегию с помощью интерактивных данных.

Выровняйте творческий жизненный циклИз-за сложности онлайн-среды CTR одной и той же идеи в разные периоды разные, и идея будет переработана или удалена, что приведет к несогласованному времени экспозиции (рис. 3(а)). Чтобы избежать шума, вызванного разными временными интервалами, собираются только перекрывающиеся периоды между креативами-кандидатами (см. рис. 3(b)), а время перекрытия составляет от 5 до 14 дней, охватывая жизненный цикл креатива от холодного запуска до относительно стабильная стадия.

Разделение данных обучения/валидации/тестирования500 827 продуктов были случайным образом разделены на 300 242 обучающих образца, 100 240 проверочных образцов и 100 345 тестовых образцов, содержащих 1 026 378/340 449/340 906 творческих образцов соответственно.

image.png

содержание исследования

Обзор дизайна

Общая структура гибридной модели Bandit с визуальными априорами, предложенная в этой статье, показана на рис. 4. На рис. 4 (a) сеть извлечения признаковNfeatN_{feat}Ввод нескольких идей для продукта одновременно и выводddразмерные промежуточные элементы{f1n,...,fmn,...,fMn}\{f^n_1,...,f^n_m,...,f^n_M\}, а затем использовать полносвязный слой для вычисления его оценки{s1n,...,sn+m,...,sMn}\{s^n_1,...,s^n+m,...,s^n_M\}.

Затем для управления процессом обучения вводятся потеря рейтинга по списку и вспомогательная потеря регрессии.Такая многоцелевая оптимизация помогает модели не только сосредоточиться на творческом рейтинге, но и учитывать числовой диапазон CTR, который способствует следующему Бандитская модель. Кроме того, поскольку шум данных является распространенной проблемой в реальных приложениях, предлагается несколько практических решений для уменьшения случайного и злонамеренного шума. После вышеперечисленных шагов модель может оценить качество креатива непосредственно по его визуальному содержанию, даже недавно загруженной работе без какой-либо исторической информации.

Чему вы научитесь позже, используя HBMfmnf^n_mВключая контекстную информацию и обновляя стратегию обучения путем взаимодействия с онлайн-наблюдениями, как показано на рис. 4(b), гибридная модель сочетает в себе предсказание продуктов и предсказание идей, что является более гибким для сложных промышленных данных.

image.png

VAM: Visual-aware Ranking Model

для товаровInI^n, используя сеть извлечения признаковNfeatN_{feat}извлекать высокоуровневые визуальные представления идей, используя линейный слой для создания первогоnnэлемент первыйmmОценка творческой привлекательности:

fmn=Nfeat(Cmn) smn=fmnTwf^n_m=N_{feat}(C^n_m)\\ \ \\ s^n_m=f^{nT}_mw

здесьwwПредставляет изученные параметры линейного слоя.

Потеря рейтинга на основе списка

Чтобы узнать относительный порядок креативности, нужно объединить список прогнозируемых оценок и ground-truthCTR индивидуально сопоставляются с распределением вероятности перестановки, а метрика между этими распределениями затем используется в качестве функции потерь.Стратегия сопоставления и метрики оценки должны гарантировать, что идеи-кандидаты с более высокими баллами получают более высокий рейтинг.

вероятности перестановки и exkkОпределение рейтинга см.ссылка на бумагу. Вдохновленный этим, документ упрощает вероятность первой идеи следующим образом:

pmn=exp(smn)i=1Mexp(sin)p^n_m=\frac{exp(s^n_m)}{\sum^M_{i=1}exp(s^n_i)}

Экспоненциальная функция, основанная на вероятности топ-1, является как масштабно-инвариантной, так и трансляционно-инвариантной, и ее соответствующая метка:

yrank(Cmn)=exp(CTR(Cmn),T)i=1Mexp(CTR(Cin),T)y_{rank}(C^n_m)=\frac{exp(CTR(C^n_m),T)}{\sum^M_{i=1}exp(CTR(C^n_i),T)}

exp(,T)exp(\cdot,T)для температурыTTЭкспоненциальная функция , потому чтоCTR(Cmn)CTR(C^n_m)является относительно небольшой дробью, поэтому используйтеTTнастроить его шкалу так, чтобы вероятность выборки топ-1 была близка к 1.

Используя кросс-энтропию в качестве меры, товарInI^nСтоимость потерь составляет:

Lrankn=myrank(Cmn)log(pmn)\mathcal{L}^n_{rank}=-\sum_{m}y_{rank}(C^n_m)\log(p^n_m)

При такой целевой функции модель ориентируется на сравнение идей в рамках одного продукта, ориентируется на вероятность топ-1, так как соответствует реальной сцене, за показ будет показана только одна идея.

Вспомогательная регрессионная потеря на основе точек

Функция ранжирования потерь ограничивает только порядок вывода, а не числовую шкалу вывода, поэтому в качестве регуляризатора добавляется точечная регрессия:

Lregn=mCTR(Cmn)smn2\mathcal{L}^n_{reg}=\sum_m||CTR(C^n_m)-s^n_m||_2

|| \cdot||представляет L2-норму.

Окончательное значение потерь получается путем сложения двух вышеуказанных потерь:

Ln=Lrankn+γLregn\mathcal{L}^n=\mathcal{L}^n_{rank}+\gamma\mathcal{L}^n_{reg}

в текстеγ=0.5\gamma =0.5.

снизить уровень шума

Чтобы избежать влияния шума, VAM обрабатывает данные двумя способами.

сглаживание этикетки: эмпирический байесовский метод сглаживания оценок CTR. Предполагая, что количество кликов подчиняется биномиальному распределению, CTR подчиняется априорному распределению:

click(Cmn)binomial(Impression(Cmn),CTR(Cmn)) CTR(Cmn)Beta(альфа,бета)click(C^n_m) \sim binomial(Impression(C^n_m),CTR(C^n_m))\\ \ \\ CTR(C^n_m)\sim Beta(\alpha,\beta)

Beta(альфа,бета)Beta(\alpha,\beta)это предварительное распределение CTR.

После наблюдения большего количества кликов апостериорное распределение и сглаженный CTR можно получить путем сопряжения биномиального распределения и априорного распределения.CTR^\hat{CTR}:

CTR^(Cmn)click(Cmn)+альфаimpression(Cmn)+альфа+бета\hat{CTR}(C^n_m)\frac{click(C^n_m)+\alpha}{impression(C^n_m)+\alpha+\beta}

вальфа,бета\alpha,\betaЗначения могут быть рассчитаны с использованием оценки максимального правдоподобия с использованием исторических данных.

взвешенная выборка: стратегия выборки для процесса обучения. Вместо того, чтобы рассматривать каждую выборку одинаково, взвешенная выборка больше фокусируется на продуктах с достаточным количеством показов и более надежным CTR за счет:

pn=g(impression(In))p^n=g(impression(I^n))

вg()g()представляет собой логарифм снятого оттиска,pnp^nУказывает продуктInI^nвес выборки.

HBM: Hybrid Bandit Model

HBM предлагает элегантную и эффективную стратегию для решения дилеммы E&E путем использования визуальных априорных значений и обновления апостериорных значений путем смешивания моделей Bandit, основанных на нейронной линейной структуре, с использованием байесовской линейной регрессии на извлеченных визуальных представлениях, предполагая, что в режиме онлайн данные обратной связи генерируются как следует:

y=fTw~+ϵy=f^T\tilde{w}+\epsilon

yyданные о кликах/отсутствии кликов,ffПредставляет визуальное представление, извлеченное VAM, которое необходимо изучить здесь.w~\tilde{w}Распределение неопределенности , используется для улучшения процесса принятия решений по ЭиО.ϵ\epsilon— независимая, равнонормально распределенная случайная величина, то есть:

ϵN(0,о2)\epsilon \sim \mathcal{N}(0,\sigma^2)

Согласно теореме Байеса, еслиw~,о2\tilde{w},\sigma^2Априорное распределение сопряжено с функцией правдоподобия данных, тогда его апостериорное распределение вероятностей может быть получено аналитически. Затем используйте апостериорную выборку (также называемую выборкой Томпсона) для решенияДилемма E&E, сохраняя модель в обратном порядке и выбирая идеи на основе оптимальных вероятностей.w~,о2\tilde{w},\sigma^2Предшествующее совместное распределение моделируется следующим образом:

число Пи(w~,о2)=число Пи(w~о2)число Пи(о2) о2IG(a,b) and w~о2N(мю,о2Σ1)\pi(\tilde{w},\sigma^2)=\pi(\tilde{w}|\sigma^2)\pi(\sigma^2)\\ \ \\ \sigma^2 \sim IG(a,b)\ and\ \tilde{w}|\sigma^2 \sim\mathcal{N}(\mu,\sigma^2\Sigma^{-1})

IG()IG()представляет собой обратную гамму с гиперпараметрами, установленными наa0=b0=н>1a_0=b_0=\eta>1.N()\mathcal{N}()с параметрами по умолчанию для распределения ГауссаΣ0=λId\Sigma_0=\lambda Id. в,мю0\mu_0устанавливаются как изученные веса в VAMww.

На основе сопряженного априора, который со временемttАпостериор можно рассчитать как:

image.png

fеRt×df\in \mathbb{R}^{t\times d}представляет собой матрицу, содержащую контекстуальные признаки предыдущих впечатлений,yеRt×1y \in \mathbb{R}^{t\times 1}Вознаграждение за отзыв. вttПосле обновления вышеуказанных параметров при каждом показе получается распределение веса при оценке неопределенности. Из изученного дистрибутиваN(мю(t),о(t)2Σ(t)1)\mathcal{N}(\mu(t),\sigma(t)^2\Sigma(t)^{-1})Залезайw(t)w(t), и выберите пункт по формуле нижеInI^nЛучшие идеи для:

Cn=аргумент maxcе{C1n,...,CMn}(Nfeat(c)))Tw(t)C^n=\argmax_{c\in\{C^n_1,...,C^n_M\}}(\mathcal{N}_{feat}(c)))^Tw(t)

Представленная выше модель представляет собой распределение весов для всех продуктов. Это простое линейное предположение хорошо работает для небольших наборов данных, но не так хорошо при работе с промышленными данными. Например, яркие и яркие цвета более привлекательны для женских топов, а простые цвета больше подходят для цифровых аксессуаров 3C. В дополнение к этому аспекту продукта идея может содержать уникальный атрибут дизайна, который не выражается через общие веса, поэтому VAM должен иметь как общие, так и отдельные веса.

Чтобы достичь этого, расширив предыдущую формулу, чтобы объединить восприятие продукта и линейный термин для конкретной идеи, для идеи.CmnC^n_m, его уравнение линейной регрессии можно переписать как:

ymn=fmnTwn+fmnTwmny^n_m=f^{nT}_mw^n+f^{nT}_mw^n_m

wn,wmnw^n,w^n_mОни оптимизированы по уравнению 18 для восприятия продукта и конкретных творческих параметров. Кроме того, VAM предлагает стратегию слияния для адаптивного объединения этих двух терминов вместо простого добавления, как показано ниже:

ymn=(1λ)fmnTwn+λfmnTwmny^n_m=(1-\lambda) f^{nT}_mw^n+\lambda f^{nT}_mw^n_m

λ=1+exp(impression(In+θ2)θ1)\lambda=1+exp(\frac{-impression(I^n+\theta_2)}{\theta_1}), которая представляет собой сигмовидную функцию с параметрами настройкиθ1\theta_1и смещениеθ2\theta_2.

Вышеупомянутый процесс показан в Алгоритме 1:

image.png

эксперимент

Метод измерения

Cumulative regretЧасто используется для оценки бандитской модели, которая определяется как:

Regret=E[r*r]Regret=E[r^*-r]

здесьr*r^*Совокупное вознаграждение за оптимальную политику, т. е. в данной среде, всегда выбирает политику с поведением с наивысшим ожидаемым вознаграждением. В частности, VAM выбирает оптимальные идеи для своего набора данных и вычисляетRegretза:

Regret=n=1Nclick(Cn)n=1Nimpression(Cn)sCTRRegret=\frac{\sum^N_{n=1}click(C^n)}{\sum^N_{n=1}impression(C^n)}-sCTR

вsCTRsCTRМетод расчета показан в Алгоритме 2:

image.png