SIGIR 2021 | Схема оптимизации модели CTR для позиционного смещения в рекламной системе

Основываясь на многолетнем опыте в области рекламы, команда алгоритмов рекламной платформы Meituan в магазине постоянно проводит глубокую оптимизацию и инновации алгоритмов для решения сложных отраслевых проблем, таких как отклонение данных. В ранее опубликованной статье «Техническое решение и рекламное бизнес-приложение для победителя конкурса KDD Cup 2020 Debiasing Competition» [4] команда поделилась решениями для предвзятости выбора и предвзятости популярности при победе в соревновании Кубка KDD, а также поделилась технической основой для оптимизация смещения в рекламном бизнесе. Основываясь на этой технической структуре, в этом документе будет продолжено введение, основное внимание будет уделено последнему прогрессу в решении проблемы отклонения позиции, а также подробно представлена схема оптимизации модели CTR отклонения позиции, чтобы команда могла достичь значительных бизнес-результатов в Meituan Advertising. схема, документ «Сеть глубокого позиционного взаимодействия для прогнозирования CTR» также был принят на крупнейшей международной конференции SIGIR 2021.

В последние годы, в связи с бурным развитием технологий искусственного интеллекта, вопрос справедливости также привлекает все больше внимания. Точно так же в рекламных технологиях существует много проблем с справедливостью, и отклонения, вызванные проблемами справедливости, будут иметь более негативное влияние на экологию рекламной системы. На рисунке 1 показан цикл обратной связи в рекламной системе [1]. Рекламная система использует накопленные данные обратной связи о взаимодействии с пользователем для обучения модели на основе определенных предположений. Модель оценивает и сортирует рекламные объявления и отображает их пользователям. и накапливаются в данных. В этом цикле в каждом звене будут продолжать накапливаться различного рода отклонения, такие как отклонение позиции и отклонение популярности, что в конечном итоге приведет к постоянному ухудшению экологии рекламной системы, в результате чего образуется «сильный доход». сильный, а слабый становится слабее" эффект Матфея.

Поскольку предвзятость оказывает большое влияние на экологию рекламных и рекомендательных систем, исследовательские усилия по устранению предвзятости также возрастают. Например, Международная информационно-поисковая конференция SIGIR организовала ряд специализированных конференций на тему устранения предвзятости в 2018 и 2020 годах, а также присудила награду Best Paper некоторым статьям на основе предвзятости и справедливости [2,3]. Один из треков KDD Cup 2020 также основан на предвзятости популярности в рекомендациях электронной коммерции [1].

图1 广告系统中的反馈环路，各种偏差被不断循环累积

Основываясь на многолетнем опыте в области рекламы, команда алгоритмов рекламной платформы Meituan в магазине постоянно проводит глубокую оптимизацию и инновации алгоритмов для решения сложных отраслевых проблем, таких как отклонение данных. ранее поделился"KDD Cup 2020 Чемпион конкурса по борьбе с предвзятостью Техническое решение и рекламное бизнес-приложение«В статье [4] команда поделилась решениями для предвзятости выбора и предвзятости популярности при победе в соревновании Кубка KDD, а также поделилась технической основой для оптимизации предвзятости в рекламном бизнесе.

Основываясь на этой технической структуре, в этом документе будет продолжено введение, основное внимание будет уделено последнему прогрессу в решении проблемы отклонения позиции, а также подробно представлена схема оптимизации модели CTR отклонения позиции, чтобы команда могла достичь значительных бизнес-результатов в Meituan Advertising. схема, документ «Сеть глубокого позиционного взаимодействия для прогнозирования CTR» также был принят на крупнейшей международной конференции SIGIR 2021.

1. Предпосылки

Основываясь на сценариях рекламного бизнеса с обеих сторон Meituan и Dianping, команда алгоритмов рекламной платформы Meituan в магазине постоянно проводит глубокую оптимизацию и алгоритмические инновации передовых рекламных технологий. В большинстве сценариев рекламного бизнеса рекламная система делится на четыре модуля, а именно триггерную стратегию, творческую оптимизацию, оценку качества и разработку механизма Эти модули образуют рекламную воронку для фильтрации и выбора высококачественных рекламных объявлений из большого количества рекламных объявлений. для целевых пользователей. Среди них триггерная стратегия выбирает набор рекламных объявлений-кандидатов, которые соответствуют намерениям пользователя, из массивных рекламных объявлений, творческая оптимизация отвечает за генерацию изображения и текста рекламных объявлений-кандидатов, а оценка качества объединяет результаты творческой оптимизации для оценить качество каждого рекламного объявления-кандидата, включая оценку рейтинга кликов (CTR), оценку коэффициента конверсии (CVR) и т. д., оптимизирован механизм сортировки по качеству рекламы и рекламной ставке. В этой статье мы также называем рекламу элементами.

Оценка CTR, как часть оценки качества, является одним из основных алгоритмов расчета рекламы. В модели выставления счетов с оплатой за клик (CPC) конструкция механизма может просто сортировать объявления по доходу на тысячу показов (eCPM), чтобы максимизировать доход от рекламы. Так как eCPM пропорциональна произведению CTR и ставки объявления (bid). Таким образом, оценки CTR будут напрямую влиять на конечный доход и пользовательский опыт рекламы. Чтобы иметь более высокую точность оценки CTR, оценка CTR варьируется от ранних моделей, таких как LR[5], FM[6], FFM[7], которые поддерживают крупномасштабные разреженные функции, до XGBoost[8], LightGBM[9], и т. д. Комбинация древовидных моделей, а затем к Wide&Deep[10], Deep&Cross[11], DeepFM[12], xDeepFM[13] и другим моделям глубокого обучения, которые поддерживают пересечение признаков высокого уровня, и в дальнейшем эволюционировали в DIN[14 ], DIEN[15], модели глубокого обучения, такие как DSIN [16], которые объединяют последовательности поведения пользователей, постоянно исследуются и обновляются как одна из горячих областей исследований в промышленности и научных кругах.

Поскольку при обучении модели прогнозирования CTR обычно используются данные о показах кликов, которые являются неявными данными обратной связи, неизбежно возникнут различные проблемы смещения. Среди них отклонение позиции привлекло большое внимание из-за его большого влияния на CTR. Как показано на Рисунке 2, распределение CTR для разных позиций в случайном трафике отражает то, что пользователи обычно склонны нажимать на объявления на верхних позициях, а CTR быстро снижается с увеличением позиции показа. Следовательно, при обучении непосредственно на данных о кликах по экспозиции модель неизбежно будет смещена в сторону набора рекламных объявлений на переднем плане, что приведет к проблеме отклонения позиции. На рисунке 2 показано, что обычное распределение CTR трафика больше сконцентрировано на рекламных объявлениях с высокими позициями, чем на случайном трафике, и из-за обратной связи эта проблема будет продолжать усиливаться и еще больше ухудшать производительность модели. Следовательно, решение проблемы отклонения позиции может не только улучшить эффект рекламной системы, но и сбалансировать экологию рекламной системы и повысить справедливость системы.

图2 美团广告正常流量和随机流量在不同位置上的CTR分布

Окончательная реальная информация о положении экспозиции рекламы неизвестна, когда она оценивается онлайн, что, несомненно, еще больше усложняет решение проблемы отклонения позиции. Существующие методы решения позиционного отклонения можно условно разделить на следующие два типа:

Моделирование признаков местоположения нейронной сети: Этот метод моделирует позицию как функцию в нейронной сети.Поскольку реальная информация о позиции неизвестна в процессе оценки, некоторые методы [17-19] помещают информацию о позиции в широкую часть сети и используют ее в автономном режиме. Истинное положение, использование фиксированного положения для онлайн-оценки, этот метод широко используется в промышленности благодаря своей простоте и эффективности. Чтобы не использовать информацию о местоположении для онлайн-оценки, как показано на рисунке 3, PAL [20] моделирует CTR выборки как ProbSeen, умноженный на pCTR, где ProbSeen моделируется только с функциями местоположения, а pCTR моделируется с другой информацией. В качестве онлайн-оценки CTR использовался только pCTR.

图3 PAL框架

Обратное взвешивание склонности (IPW): Этот метод широко изучался в академических кругах [21-29]. Он присваивает образцы разного веса образцам в разных позициях экспозиции во время обучения модели. Интуитивно понятно, что рекламные образцы с более низкой тенденцией к получению обратной связи (позиции экспозиции, близкие к пост-рекламе) назначают более высокий вес. Таким образом, сложность этого метода заключается в том, как определить выборочные веса различных позиций.Простой метод — использовать трафик случайных рекламных объявлений для точного расчета отклонения CTR позиции, но это неизбежно повредит пользовательскому опыту. Поэтому многие методы посвящены точному прогнозированию отклонения положения на смещенном потоке.

Вышеупомянутые методы обычно основаны на сильном предположении, что переменная Бернулли щелчка $C$ зависит от двух потенциальных переменных Бернулли E и $R$ , как показано в следующей формуле:

где левая часть уравнения относится к пользователю $u$ в контексте $c$ средний щелчок $k$ Объявления $i$ вероятность того, что мы определяем контекст $c$ Для запроса информации в режиме реального времени. Первый член в правой части уравнения относится к местоположению $k$ вероятность просмотра, где $[s]$ обычно контекст $c$ подмножество , большинство методов предполагают $[s]$ пустое множество, т. е. позиция $k$ Вероятность того, что вас увидят, равна $k$ Связанный. Второй член в правой части уравнения относится к вероятности релевантности (например, пользователь $u$ в контексте $c$ в середине рекламы $i$ неподдельный интерес). Вышеупомянутые методы обычно оценивают вероятность просмотра явно или неявно, затем используют контрфактический вывод для получения вероятности корреляции и, наконец, используют вероятность корреляции в качестве оценочного значения CTR в Интернете. Различная обработка информации о местоположении между обучением и прогнозированием неизбежно приведет к несоответствиям между офлайн и онлайн, что еще больше приведет к неоптимальной производительности модели.

Кроме того, существующие методы обычно предполагают, что вероятность просмотра зависит только от местоположения и некоторой контекстной информации, что является слишком упрощенным. У разных пользователей обычно разные привычки просмотра, некоторые пользователи могут просматривать больше элементов, в то время как некоторые пользователи обычно принимают быстрые решения, и у одного и того же пользователя также будут разные предпочтения местоположения в целях поиска в разных контекстах. Например, поиск таких терминов местоположения, как поскольку торговые центры часто имеют неясные намерения, в результате чего разница в CTR между местами с высоким и низким значением незначительна. Следовательно, позиционное смещение связано с пользователем, контекстом и, возможно, даже с самой рекламой, и моделирование взаимосвязи между ними может лучше решить проблему позиционного смещения.

В отличие от вышеупомянутых методов, в этой статье предлагается метод многопозиционной оценки, основанный на модели сети глубокого позиционного взаимодействия (DPIN) для эффективного моделирования напрямую. $CTR_k^j=p(C=1|u,c,i,k)$ для улучшения производительности модели, где $CTR_k^j$ первый $j$ объявление в $k$ Оценки CTR для каждого местоположения. Модель эффективно объединяет все объявления-кандидаты и местоположения для оценки CTR каждого объявления в каждом месте, обеспечивая согласованность между офлайн и онлайн, а также поддерживая местоположение, пользователя, контекст и глубокое нелинейное пересечение между объявлениями. Конечная последовательность объявления может быть максимизирована с помощью $\sum CTR_k^jbid^j$ определить, какой $bid^j$ Для торгов рекламы онлайн-механизм этой статьи использует жадный алгоритм позиции сверху вниз для получения окончательного порядка рекламы. Вклад этой статьи заключается в следующем:

В этой статье в DPIN используется неглубокий модуль комбинирования позиций с нелинейным пересечением, который может параллельно оценивать CTR рекламного объявления-кандидата и комбинации позиций, обеспечивает согласованность офлайн и онлайн и значительно повышает производительность модели.
В отличие от предыдущего моделирования интересов пользователей для объявлений о кандидатах, впервые предлагается также моделирование интересов пользователей для позиций-кандидатов. DPIN применяет модуль глубокого пересечения местоположения для эффективного изучения глубоких нелинейных перекрестных представлений между местоположением, интересом пользователя и контекстом.
В соответствии с новым методом обработки положения в этой статье предлагается новый показатель оценки PAUC (позиционный AUC), который используется для измерения производительности модели при решении проблемы отклонения положения. В этом документе проводится достаточное количество экспериментов с реальным набором данных рекламы Meituan и подтверждается, что DPIN может достичь хороших результатов как в производительности модели, так и в производительности обслуживания. В то же время в этом документе также проводится онлайн-тестирование A/B, которое подтверждает, что DPIN значительно улучшен по сравнению с высокооптимизированным существующим базовым планом.

2. Сеть глубокого позиционного взаимодействия

В этом разделе в основном представлена модель сети глубокого позиционного взаимодействия (DPIN). Как показано на рисунке 4, модель DPIN состоит из трех модулей, которые обрабатывают $J$ Базовый модуль объявления кандидата, обработка $K$ Модуль глубокого позиционного взаимодействия каждой позиции-кандидата и комбинации $J$ реклама и $K$ Позиционный комбинированный модуль для каждой позиции, количество выборок, оцениваемых разными модулями, различно, количество выборок, оцениваемых сложным модулем, мало, а количество выборок, оцениваемых простым модулем, велико, тем самым улучшая производительность модели и гарантийное обслуживание. Благодаря сочетанию этих трех модулей модель DPIN способна оценивать CTR каждого объявления в каждом месте с учетом ограничений производительности службы и изучать глубокие нелинейные перекрестные представления информации о местоположении и другой информации. Эти три модуля подробно описаны ниже.

图4 Deep Position-wise Interaction Network模型结构

2.1 Базовый модуль

Подобно большинству моделей CTR глубокого обучения [10-16], в этой статье в качестве базовых модулей используется структура Embedding и MLP (многослойный персептрон). Для конкретного запроса на включение базовый модуль преобразует пользователя, контекст и $J$ В качестве входных данных используется реклама-кандидат, и каждая функция представлена Embedding.Сращивание Embedding означает ввод многоуровневого MLP с использованием ReLU в качестве функции активации, и, наконец, может быть получено представление каждой рекламы по запросу. первое $j$ представление объявления $r_j^{item}$ Его можно получить по следующей формуле:

в $\{u_1,...,u_m\}$ , $\{c_1,...,c_m\}$ , $\{i_1^j,...,i_o^j\}$ являются текущим набором функций пользователя, текущим набором функций контекста и первым $j$ набор функций объявления, $E(\cdot)\in \mathbb{R}$ является отображением внедрения.

2.2 Модуль глубокого позиционного взаимодействия

В большинстве бизнес-сценариев базовый модуль, как правило, уже сильно оптимизирован и содержит такую информацию, как большое количество функций или даже пользовательских последовательностей, цель которых состоит в том, чтобы привлечь внимание пользователя к различным рекламным объявлениям в этом контексте. Следовательно, временная сложность вывода базового модуля обычно велика, и неприемлемо напрямую добавлять в базовый модуль признаки местоположения для оценки CTR всех рекламных объявлений во всех местоположениях. Поэтому в этой статье предлагается параллельный базовому модулю кросс-модуль глубокого местоположения, который отличается от базового модуля для моделирования интереса к рекламе.Линейное кросс-представление.

В модуле пересечения глубинных местоположений мы извлекаем последовательность поведения пользователя в каждом местоположении и используем ее для агрегирования интересов пользователей в каждом местоположении, что может устранить предвзятость местоположения во всей последовательности поведения пользователя. Затем мы используем нелинейный полносвязный слой, чтобы изучить нелинейное перекрестное представление местоположения, контекста и интересов пользователя. Наконец, чтобы агрегировать информацию о последовательности пользователей в разных местах, чтобы гарантировать, что информация не будет потеряна, мы используем Transformer [30], чтобы обеспечить взаимодействие представлений последовательности поведения в разных местах.

Позиционное агрегирование интересов.мы заказываем $B_k=\{b_1^k,b_2^k,...,b_L^k \}$ для пользователя в $k$ последовательность исторического поведения в местах, где $b_l^k=[v_l^k, c_l^k]$ для пользователя в $k$ История на позиции $l$ запись поведения, $v_l$ набор характеристик элемента клика, $c_l^k$ Для контекста, в котором происходит поведение (включая ключевые слова для поиска, запрос географического местоположения, дни недели, часы дня и т. д.), встроенное представление записи поведения $\mathbf{b_l^k}$ Его можно получить по следующей формуле:

в $\{v_1^{k_l},v_o^{k_l}\}$ , $\{c_1^{k_l},c_n^{k_l}\}$ соответственно $v_l^k$ и $c_l^k$ набор функций, $dif^{kl}$ разница во времени между этим поведением и текущим контекстом.

первое $k$ Совокупное представление последовательности позиционного поведения $\mathbf{b_k}$ Его можно получить с помощью механизма внимания, как показано в следующей формуле:

который вводит текущий контекст $\mathbf{c}$ Чтобы рассчитать весовые коэффициенты внимания, более контекстно-зависимому поведению можно присвоить больший вес.

Позиционное нелинейное взаимодействие:Мы используем нелинейный полносвязный слой, чтобы изучить нелинейное перекрестное представление местоположения, контекста и интересов пользователя, как показано в следующей формуле:

в, $\mathbf{W_v},\mathbf{b_v},$ сопоставить объединенный вектор с $d_{model}$ измерение.

Трансформаторный блок:если $V_k$ непосредственно как $k$ Нелинейное перекрестное представление одного местоположения приведет к потере информации о последовательности поведения пользователя в других местоположениях. Поэтому мы используем Transformer, чтобы изучить взаимодействие различных интересов местоположения. сделать $\mathbf{Q}=\mathbf{K}=\mathbf{V}=Concat(\mathbf{v_1},\mathbf{v_2},...,\mathbf{v_K})$ Как вход Преобразователя, многоголовая структура собственного внимания Преобразователя может быть выражена следующей формулой:

в, $d_k=d_{model}/h$ размер каждой головки. так как $\mathbf{v_k}$ Информация о положении уже включена в , поэтому нам не нужно кодирование положения в Transformer. Точно так же мы также используем сеть прямой связи по положению, остаточные соединения и нормализацию слоев в Transformer. N трансформаторных блоков будут использоваться для углубления сети.

Наконец, модуль глубокого пересечения местоположения создает представление глубокого нелинейного пересечения для каждого местоположения, где первое $k$ позиции представлены как $r_k^{pos}$ .

2.3 Позиционный комбинированный модуль

Целью модуля комбинирования позиций является декомпозиция $J$ реклама и $K$ position для оценки CTR каждой рекламы в каждой позиции, мы используем нелинейный полносвязный слой, чтобы изучить нелинейное представление рекламы, позиции, контекста и пользователя. $j$ объявление в $k$ CTR на каждой позиции можно получить по следующей формуле:

Он включает в себя нелинейный соединительный слой и выходной слой, который $E(k)$ Представление вложения позиции k, $\sigma(\cdot)$ является сигмовидной функцией.

Всю модель можно обучить и изучить с помощью пакетного градиентного спуска, используя наземную правду, и мы принимаем кросс-энтропию в качестве нашей функции потерь.

3. Эксперимент

В этом разделе мы оцениваем производительность модели и сервисную производительность DPIN, а также подробно описываем экспериментальную установку и экспериментальные результаты.

3.1 Экспериментальная установка

набор данных:Мы обучаем и оцениваем нашу модель CTR, используя набор данных Meituan Search Keyword Ads. Количество обучающих данных достигает сотен миллионов, а количество тестовых данных составляет около 10 миллионов. Тестовый набор разделен на две части: одна — это обычные журналы трафика, собранные в Интернете, а другая — онлайн-журналы случайного исследования трафика Top-k. Журналы трафика случайных исследований Top-k больше подходят для оценки проблемы предвзятости местоположения, поскольку они значительно ослабляют влияние рекомендаций по релевантности на предвзятость местоположения.

Метрики оценки:Мы используем AUC (площадь под ROC) в качестве одного из наших показателей оценки. Чтобы лучше оценить проблему смещения позиции, мы предлагаем PAUC (позиционный AUC) в качестве еще одной оценочной метрики, которая рассчитывается по следующей формуле:

в, $\#impression_k$ первый $k$ количество экспозиций для каждой локации, $PAUC@k$ первый $k$ AUC данных о воздействии для каждого местоположения. Метрика PAUC измеряет качество ранжирования по релевантности на каждой позиции, игнорируя влияние смещения позиции на качество ранжирования.

метод сравнения.Чтобы справедливо и полностью сравнить эффекты различных моделей, входные данные модели, используемые во всех наших экспериментах, используют одинаковое количество и глубоко сочетают в себе особенности бизнеса Meituan, одни и те же модули в разных моделях используют одни и те же параметры, а базовый DIN [ 14] Модель сильно оптимизирована, и мы специально сравнили следующие эксперименты:

DIN:Модель была обучена и оценена без информации о местоположении.
DIN+PosInWide:Этот метод моделирует функцию местоположения в глобальной части сети и использует первое местоположение в качестве значения по умолчанию функции местоположения для оценки во время оценки.
ДИН+ПАЛ:Этот метод использует структуру PAL для моделирования информации о местоположении.
DIN+ActualPosInWide:Этот метод моделирует особенности местоположения в глобальной части сети и использует для оценки функции реального местоположения.
DIN+Комбинация:Этот метод добавляет модуль комбинирования позиций на основе DIN и использует для оценки реальные функции позиции.
ДПИН-трансформатор:Этот метод удаляет структуру Transformer в предлагаемой нами модели DPIN, чтобы проверить роль Transformer.
ДПИН:Это предлагаемая нами модель DPIN.
ДПИН+ItemAction:Мы добавляем модуль пересечения глубокого местоположения перед уровнем MLP, базовым модулем DPIN, и вводим информацию о рекламе-кандидате в агрегацию интересов местоположения и нелинейное пересечение местоположения.Этот эксперимент является теоретической границей производительности модели нашего метода, но производительность службы является неприемлемым.

3.2 Офлайн-оценка

表1 在常规流量和随机流量上的离线实验评估对比结果

В таблице 1 показаны результаты автономной экспериментальной оценки наших сравнительных методов для обычного и случайного трафика.Значения представляют собой различия в эффектах каждой модели по сравнению с моделью DIN.Сначала мы анализируем различия между различными методами для обычного трафика. По сравнению с DIN модели DIN+PosInWide и DIN+PAL имеют снижение показателя AUC, но улучшение показателя PAUC, что показывает, что оба метода могут эффективно уменьшить смещение позиции, но приводят к оффлайн и несоответствиям между линиями.

DIN+AcutalPosInWide решает проблему несоответствия, вводя фактическое положение в процесс оценки, что может быть достигнуто с помощью модуля комбинирования положений, но моделирование положения в широкой части приведет к тому, что признак положения будет только отклонением, что не может улучшить Индекс PAUC, хотя он может быть более точным. Оценил CTR для каждого местоположения, но не узнал лучше о смещении местоположения, присущем данным.

Комбинация DIN+Внедрив модуль комбинирования позиций в DIN, мы добились усиления AUC на 1,52% и усиления PAUC на 0,82%, что не только обеспечило согласованность между автономным и онлайн-режимом, но и дополнительно уменьшило отклонение позиции. что отклонение положения Это не зависит от контекста, пользователя и другой информации, и будут разные отклонения положения для разных пользователей и контекстов. Кроме того, DPIN моделирует глубокую нелинейную взаимосвязь положения, контекста и пользователя, а также устраняет позиционное отклонение в последовательности поведения пользователя.По сравнению с комбинацией DIN+, он обеспечивает усиление AUC на 0,24% и усиление PAUC на 0,44. %.

Эффект DPIN-Transformer показывает, что потеря интереса пользователя к другим местоположениям влияет на производительность модели, поскольку она теряет большую часть информации об интересе пользователя. Сравнивая DPIN и DPIN+ItemAction, мы обнаруживаем, что производительность модели DPIN близка к этому методу грубой силы, что указывает на то, что модель DPIN приближается к теоретической границе нашего метода. Наконец, по сравнению с нашей базовой онлайн-моделью DIN+PosInWide, DPIN обеспечивает прирост AUC на 2,98% и прирост PAUC на 1,07%, что является значительным улучшением AUC и PAUC в нашем бизнес-сценарии.

Чтобы убедиться, что наш метод может изучать предвзятость местоположения, а не просто переобучать предвзятость выбора системы, мы дополнительно оцениваем наш метод на случайном трафике. Результаты в таблице 1 показывают, что разница между различными методами одинакова для обычного трафика и случайного трафика, что показывает, что даже если результаты рекомендаций системы имеют огромные различия, модель все равно может эффективно учиться использовать разных пользователей и контексты. На смещение местоположения в модели меньше влияет список системных рекомендаций, что также показывает, что наша модель может обобщаться на трафик других методов рекомендаций, не подвергаясь смещению системной избирательности.

3.3 Производительность службы

图5 不同的方法下服务延迟随着不同候选广告数量的变化图

Мы получаем несколько запросов с разным количеством рекламных объявлений-кандидатов из набора данных, чтобы оценить производительность службы при различном количестве рекламных объявлений-кандидатов. Как показано на рис. 5, поскольку задержка операций последовательности пользователей составляет большую часть задержки обслуживания, задержка обслуживания модуля комбинирования местоположений незначительна по сравнению с моделью DIN. Задержка обслуживания DPIN медленно увеличивается с увеличением количества рекламных объявлений, поскольку DPIN перемещает пользовательскую последовательность от базового модуля к модулю пересечения глубоких местоположений по сравнению с DIN, а производительность обслуживания модуля пересечения глубоких местоположений не зависит от количества рекламных объявлений. . По сравнению с методом DIPIN+ItemAction, DPIN обеспечивает значительное улучшение производительности службы с небольшим ущербом для производительности модели, что показывает, что предлагаемый нами метод является эффективным и результативным.

3.4 Онлайн-оценка

Мы развернули A/B-тестирование онлайн и получили стабильные результаты, показывающие, что DPIN улучшил CTR на 2,25% и RPM (доход на тысячу показов) на 2,15% по сравнению с базовым уровнем. Сегодня DPIN развернут в сети и обслуживает основной трафик, способствуя значительному росту доходов бизнеса.

4. Резюме и перспективы

В этой статье мы предлагаем новую сеть взаимодействия с глубоким позиционированием, чтобы решить проблему предвзятости позиции, которая эффективно объединяет все рекламные объявления-кандидаты и позиции для оценки CTR каждой рекламы для каждой позиции, обеспечивая согласованность между офлайн и онлайн. Модель создает глубокое нелинейное пересечение между местоположениями, контекстами и пользователями и может изучать предвзятость местоположения среди разных пользователей и разных контекстов. Чтобы оценить проблему смещения позиции, мы предлагаем новую оценочную метрику, PAUC, и автономные эксперименты показывают, что предложенный DPIN превосходит существующие методы как по эффекту, так и по эффективности. В настоящее время DPIN развернут в поисковой рекламной системе ключевых слов Meituan и обслуживает основной трафик.

Стоит отметить, что наша идея параллельного комбинирования может быть использована не только для комбинирования рекламных объявлений и позиций, но и для общих задач сортировки комбинаций в рекламной сфере, таких как комбинирование рекламных объявлений и креативов. В будущем мы продолжим практиковать наш метод на этих задачах и разработаем более сложные сетевые структуры для решения подобных задач комбинаторной сортировки. Мы также будем проводить больше исследований в области девиации, решать больше проблем и в дальнейшем поддерживать экологический баланс рекламной системы.

об авторе

Jianqiang, Hu Ke, Qingtao, Mingjian, Qi Yi, Cheng Jia, Lei Jun и другие сотрудники технического отдела Meituan Advertising Platform.

использованная литература

[1] Chen, Jiawei, et al. "Bias and Debias in Recommender System: A Survey and Future Directions." arXiv preprint arXiv:2010.03240 (2020).
[2] Каньямарес, Росио и Пабло Кастельс, «Должен ли я следовать за толпой? Вероятностный анализ эффективности популярности в рекомендательных системах», 41-я Международная конференция ACM SIGIR по исследованиям и разработкам в области информационного поиска, 2018 г.
[3] Morik, Marco, et al. "Controlling fairness and bias in dynamic learning-to-rank." Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. 2020.
[4] «Техническое решение и практика чемпионата по борьбе с предвзятостью KDD Cup 2020 в Meituan».
[5] Richardson, Matthew, Ewa Dominowska, and Robert Ragno. "Predicting clicks: estimating the click-through rate for new ads." Proceedings of the 16th international conference on World Wide Web. 2007.
[6] Rendle, Steffen. "Factorization machines." 2010 IEEE International Conference on Data Mining. IEEE, 2010.
[7] Juan, Yuchin, et al. "Field-aware factorization machines for CTR prediction." Proceedings of the 10th ACM conference on recommender systems. 2016.
[8] Chen, Tianqi, and Carlos Guestrin. "Xgboost: A scalable tree boosting system." Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining. 2016.
[9] Ke, Guolin, et al. "Lightgbm: A highly efficient gradient boosting decision tree." Advances in neural information processing systems 30 (2017): 3146-3154.
[10] Cheng, Heng-Tze, et al. "Wide & deep learning for recommender systems." Proceedings of the 1st workshop on deep learning for recommender systems. 2016.
[11] Wang, Ruoxi, et al. "Deep & cross network for ad click predictions." Proceedings of the ADKDD'17. 2017. 1-7.
[12] Guo, Huifeng, et al. "DeepFM: a factorization-machine based neural network for CTR prediction." arXiv preprint arXiv:1703.04247 (2017).
[13] Lian, Jianxun, et al. "xdeepfm: Combining explicit and implicit feature interactions for recommender systems." Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018.
[14] Zhou, Guorui, et al. "Deep interest network for click-through rate prediction." Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018.
[15] Zhou, Guorui, et al. "Deep interest evolution network for click-through rate prediction." Proceedings of the AAAI conference on artificial intelligence. Vol. 33. No. 01. 2019.
[16] Feng, Yufei, et al. "Deep session interest network for click-through rate prediction." arXiv preprint arXiv:1905.06482 (2019).
[17] Ling, Xiaoliang, et al. "Model ensemble for click prediction in bing search ads." Proceedings of the 26th International Conference on World Wide Web Companion. 2017.
[18] Zhao, Zhe, et al. "Recommending what video to watch next: a multitask ranking system." Proceedings of the 13th ACM Conference on Recommender Systems. 2019.
[19] Haldar, Malay, et al. "Improving Deep Learning For Airbnb Search." Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020.
[20] Guo, Huifeng, et al. "PAL: a position-bias aware learning framework for CTR prediction in live recommender systems." Proceedings of the 13th ACM Conference on Recommender Systems. 2019.
[21] Wang, Xuanhui, et al. "Learning to rank with selection bias in personal search." Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval. 2016.
[22] Joachims, Thorsten, Adith Swaminathan, and Tobias Schnabel. "Unbiased learning-to-rank with biased feedback." Proceedings of the Tenth ACM International Conference on Web Search and Data Mining. 2017.
[23] Ai, Qingyao, et al. "Unbiased learning to rank with unbiased propensity estimation." The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. 2018.
[24] Wang, Xuanhui, et al. "Position bias estimation for unbiased learning to rank in personal search." Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining. 2018.
[25] Agarwal, Aman, et al. "Estimating position bias without intrusive interventions." Proceedings of the Twelfth ACM International Conference on Web Search and Data Mining. 2019.
[26] Hu, Ziniu, et al. "Unbiased lambdamart: an unbiased pairwise learning-to-rank algorithm." The World Wide Web Conference. 2019.
[27] Ovaisi, Zohreh, et al. "Correcting for selection bias in learning-to-rank systems." Proceedings of The Web Conference 2020. 2020.
[28] Yuan, Bowen, et al. "Unbiased Ad click prediction for position-aware advertising systems." Fourteenth ACM Conference on Recommender Systems. 2020.
[29] Qin, Zhen, et al. "Attribute-based propensity for unbiased learning in recommender systems: Algorithm and case studies." Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020.
[30] Vaswani, Ashish, et al. "Attention is all you need." arXiv preprint arXiv:1706.03762 (2017).

Прочтите другие сборники технических статей от технической команды Meituan

|Ответьте на ключевые слова, такие как [акции 2020 г.], [акции 2019 г.], [акции 2018 г.], [акции 2017 г.] в диалоговом окне строки меню общедоступной учетной записи, и вы сможете просмотреть коллекцию технических статей технической группы Meituan в течение годы.

| Эта статья подготовлена технической командой Meituan, авторские права принадлежат Meituan. Добро пожаловать на перепечатку или использование содержимого этой статьи в некоммерческих целях, таких как обмен и общение, пожалуйста, укажите «Содержимое воспроизводится технической командой Meituan». Эта статья не может быть воспроизведена или использована в коммерческих целях без разрешения. Для любой коммерческой деятельности, пожалуйста, отправьте электронное письмо по адресуtech@meituan.comПодать заявку на авторизацию.