Как сбалансировать проблему задержки обратной связи при оценке CVR? (включая рекрутинг)

алгоритм

В этой статье в основном представлены некоторые мысли об онлайн-обучении нашей модели CVR и представлена ​​наша статья «Сбор отложенной обратной связи при прогнозировании коэффициента конверсии с помощью выборки за истекшее время», полученная AAAI 2021, а также практика этого метода в сценариях поиска Taobao.

Резюме

Оценка коэффициента конверсии (CVR) является одной из наиболее важных задач для поиска, рекомендаций и рекламы в электронной коммерции. Бизнес-системам часто требуется обновлять модели в режиме онлайн-обучения, чтобы не отставать от меняющихся распределений данных. Однако близкие конверсии обычно не происходят сразу после того, как пользователь щелкает элемент. Это может привести к неточным меткам, что мы называем проблемой отложенной обратной связи.

В предыдущих исследованиях проблема отложенной обратной связи решалась путем длительного ожидания положительных образцов или путем потребления отрицательных образцов, когда они поступали, а затем вставки положительных образцов позже, когда они были фактически преобразованы.

На самом деле существует компромисс между ожиданием более точных меток и использованием свежих данных, который не рассматривается в существующих работах. Чтобы найти баланс между этим компромиссом, мы предлагаем модель задержанной обратной связи с выборкой за истекшее время (ES-DFM), которая оценивает взаимосвязь между наблюдаемыми и наземными конверсиями. распределение динамической выборки (выборка за прошедшее время).

Далее мы оцениваем вес важности каждой выборки, который используется в качестве веса функции потерь при оценке CVR. Чтобы продемонстрировать эффективность ES-DFM, мы проводим обширные эксперименты с общедоступными данными и промышленными наборами данных. Экспериментальные результаты подтверждают, что наш метод постоянно превосходит предыдущие результаты современного уровня техники.

вводить

Оценки коэффициента конверсии транзакций (CVR) с помощью моделей глубокого обучения широко изучались как в научных кругах, так и в промышленности. Чтобы фиксировать динамические изменения потребностей пользователей, коммерческие системы часто используют самые последние данные для обновления изученных моделей за короткий период времени, то есть в режиме онлайн-обучения. Это усложняет оценку CVR, поскольку близкие конверсии обычно не происходят сразу после клика пользователя.

Проблема отложенной обратной связи представляет сложную проблему для онлайн-обучения моделей CVR: с одной стороны, нам нужно ждать достаточно долго, чтобы информация наблюдения могла примерно отражать истинную конверсию сделки (корректность метки); с другой стороны, мы также склонны к обновлению прогнозной модели (модель-свежесть).

DFM [2] является одним из первых исследований по решению проблемы обратной связи с задержкой, и предложенная модель обратной связи с задержкой оптимизирована путем оценки совместной вероятности CVR и распределения времени задержки. Такие результаты оптимизации наблюдаемых конверсий могут отличаться от истинного распределения конверсий. Чтобы добиться беспристрастного прогнозирования CVR в задачах с задержкой обратной связи, в недавних исследованиях изучались способы оптимизации ожидаемого истинного распределения конверсии посредством выборки по важности [1].

FNW (Fake Negative Weighted) [3] предлагает следующий метод выборки: каждый поступающий образец сначала помечается как отрицательный пример, а затем корректируется, когда он действительно трансформируется. Однако каждый ложноотрицательный результат может иметь побочные эффекты на модель, пока он не будет исправлен. Этот побочный эффект усиливается, если распределение данных часто меняется. Например, клики пользователей могут резко увеличиться в начале рекламной акции, тогда как большинство конверсий происходит через определенное время. Такое количество ложноотрицательных результатов может повредить прогностическим моделям.

FSIW (Feedback Shift Importance Weighting) [4] не помечает вслепую каждый поступающий шаблон как негативный пример, а ждет реальной конверсии сделки в течение определенного интервала времени. Однако FSIW не позволяет корректировать данные, даже если впоследствии происходит событие конвертации сделки. Мы утверждаем, что положительные примеры важны для предсказания отсроченной обратной связи, потому что положительные примеры всегда реже, чем отрицательные. Кроме того, FSIW может отсутствовать актуальность модели из-за длительного времени ожидания. Следовательно, либо обновление модели почти в реальном времени, либо ожидание перехода достаточно долго не может решить проблему задержки обратной связи при потоковой передаче прогнозов CVR.

Для онлайн-обучения моделей CVR мы предлагаем модель задержанной обратной связи с выборкой за истекшее время (ES-DFM), которая моделирует взаимосвязь между наблюдаемым распределением конверсии и фактическим распределением конверсии. Введение динамического распределения выборки (выборка за прошедшее время) в нашу схему может помочь модели скорректировать систематическую ошибку выборки, уменьшив вес ложноотрицательных результатов и увеличив вес истинных примеров.

Чтобы продемонстрировать эффективность ES-DFM, мы провели обширные эксперименты с двумя широко используемыми наборами данных — Criteo, который предоставляет журнал конверсий публичной рекламы, и набором данных по отрасли поиска. Экспериментальные результаты подтверждают, что наш метод в большинстве случаев постоянно превосходит предыдущие современные результаты. Наш основной вклад можно резюмировать следующим образом:

Насколько нам известно, мы первыми изучили, как сбалансировать правильность маркировки и свежесть модели в контексте онлайн-обучения моделей CVR.

Путем моделирования времени выборки как распределения вероятностей мы получаем объективную оценку истинного распределения конверсий. Наша модель также демонстрирует надежность, особенно когда распределение данных отличается от нормы.

Мы предоставляем строгую экспериментальную установку для потокового обучения и оценки, которая лучше согласуется с промышленными системами и может быть легко применена к реальным приложениям.

Связанных с работой

Delayed Feedback Models

Наиболее убедительная работа, посвященная проблеме отложенной обратной связи, связана с DFM, которая, как отмечают авторы, связана с анализом времени выживания. Модель с обратной связью с задержкой (DFM) предполагает экспоненциальную задержку в распределении времени конверсии, и на основе этого предлагаются две модели: одна модель фокусируется на прогнозировании CVR, а другая — на прогнозировании задержки конверсии.

Основываясь на модели DFM, NPDFM [5] также предлагает непараметрическую модель обратной связи с задержкой (NoDeF), в которой время задержки моделируется без каких-либо параметрических допущений. Существенным недостатком вышеупомянутых методов является то, что все они пытаются оптимизировать только наблюдаемую информацию о конверсии, а не реальную отложенную конверсию.

Importance Sampling

Методы выборки по важности могут использовать выборки из одного распределения для оценки ожиданий для другого распределения. В методе FNW все образцы изначально помечаются как отрицательные, и в этой экспериментальной установке FNW может решить проблему запаздывающей обратной связи. Однако в потоковой настройке каждый ложноотрицательный результат отрицательно влияет на модель до тех пор, пока не будет получен соответствующий положительный образец. Этот негативный эффект может резко усилиться при изменении распределения. FSIW предлагает метод взвешивания важности перехода с обратной связью (FSIW), в котором вес важности оценивается с помощью информации о задержке. Однако FSIW не позволяет использовать повторно выданные положительные образцы (отзывы образцов), поэтому его нельзя использовать для исправления систематической ошибки.

задний план

В этой работе мы сосредоточимся на задаче оценки CVR, которая использует пользовательские характеристики xu и характеристики предметов xi в качестве входных данных (все характеристики обозначаются x) и направлена ​​на изучение вероятностей преобразования пользователей в предметы. y∈{0,1} представляет метку преобразования, где y=1 означает, что преобразование происходит, иначе y=0.

В идеале модель CVR обучается на обучающих данных (x, y), полученных из распределения данных истинности p (x, y), которая оптимизирует идеальную функцию потерь следующим образом:

image.png

где f — функция модели CVR, а θ — параметр. ℓ — классификационная потеря, в которой используется широко используемая кросс-энтропия. Однако наблюдаемое распределение обучающих данных q(x,y) часто отклоняется от распределения наземной истины p(x,y) из-за проблем с запаздывающей обратной связью. Поэтому идеальных убытков Лидеал не существует.

image.png

Чтобы более точно сформулировать такие настройки отложенной обратной связи, мы ввели три момента времени и соответствующие временные интервалы на приведенном выше рисунке. Три момента времени — это время клика ct, когда пользователь щелкает элемент, время преобразования vt, когда происходит операция преобразования, и время наблюдения ot, когда извлекается обучающая выборка. Тогда временной интервал между ct и ot обозначается как время выборки e, а временной интервал между ct и vt обозначается как время задержанной обратной связи h. Поэтому, когда e>h, выборки в обучающих данных помечаются как y=1 (положительные), в противном случае, когда e

метод

Чтобы добиться гибкого управления временем выборки, мы предполагаем, что время выборки берется из распределения p(e|x).

Затем мы разрабатываем вероятностную модель, которая объединяет распределение времени выборки p(e|x), распределение времени задержки p(h|x,y=1)1) и скорость перехода p(y=1|x) в унифицированную структуру. . Чтобы получить объективную оценку фактической цели прогнозирования CVR, мы предлагаем метод взвешивания важности, соответствующий нашему предыдущему методу выборки. Затем мы предоставляем практические оценки важных весов и анализ смещения, вносимого такими оценками, который может помочь нам в разработке соответствующего распределения прошедшего времени p(e|x).

Elapsed-Time Sampling Delayed Feedback Model

Чтобы найти баланс между получением точной информации обратной связи и поддержанием актуальности модели, в процесс моделирования следует включить разумную задержку (время выборки).

Кроме того, время выборки e должно быть распределением, зависящим от x, то есть p(e|x). Например, пользователям нужно больше времени, чтобы подумать о покупке дорогих продуктов, и, следовательно, требуется больше времени ожидания. Когда приходит щелчок xi, прошедшее время ei берется из p(e|xi). Затем, прежде чем присваивать метки, дождитесь выборок xi в интервале ei, а затем обучите данные. Вводя временное распределение, мы предлагаем ES-DFM, который моделирует взаимосвязь между наблюдаемым распределением преобразования q(y|x) и истинным распределением преобразования p(y|x) в соответствии с:

image.png

в,

image.png

Некоторые переходы, которые в конечном итоге произойдут, не были обнаружены при обучении модели и игнорировались предыдущими методами, такими как DFM и FSIW. Мы считаем, что это важно для задач с отложенной обратной связью, поскольку положительные примеры встречаются гораздо реже, чем отрицательные, что может задать направление для оптимизации модели. Поэтому в этой работе всякий раз, когда пользователь взаимодействует с рекламой, в модель отправляются данные с положительными метками (если уже есть ложноотрицательные, данные реплицируются). Затем q(y|x) следует перенормировать следующим образом:

image.png

Для краткости условие для x опущено, т. е. q(y=0)=q(y=0|x), p(y=0)=p(y=0|x). Поскольку мы вставили задержанное положительное число, общее количество выборок увеличится на p(y=1)p(h>e|y=1), поэтому мы должны разделить на 1+p(y=1)p(h> e |y=1) для нормализации. Количество отрицательных образцов не изменится, поэтому оно будет разделено на этот коэффициент нормализации.

Положительные числа увеличивают p(y=1)p(h>e|y=1), поэтому числитель q(y=1) равен:

p(y=1)p(he|y=1).

Используя тот факт, что p(he|y=1)=1.

Importance Weight of ES-DFM

Чтобы получить несмещенную оценку CVR в задаче с запаздывающей обратной связью, мы оптимизируем ожидание p(y|x) с помощью выборки по важности. Во-первых, мы предоставляем теоретические основы выборки по важности следующим образом:

image.png

где f — функция модели CVR, а θ — параметр. ℓ — классификационная потеря, в которой используется широко используемая кросс-энтропия. Согласно \eqref{is_4}, мы можем оптимизировать идеальную цель с помощью соответствующих взвешенных изображений.

Во-вторых, мы дополнительно предоставляем предлагаемые веса важности для выборочного распределения. Из уравнения мы можем получить:

image.png

в,

image.png

pdp(x) — вероятность выпадения положительного результата, указывающая на вероятность того, что образец представляет собой повторяющееся положительное число; prn(x) — вероятность истинно отрицательного результата, указывающего на то, что наблюдаемый отрицательный результат — это вероятность того, что основная истина является отрицательной и будет не конвертироваться.

Наконец, важность взвешивания функции потерь CVR заключается в следующем:

image.png

Estimation of Importance Weight(IW)

Проблема решения проблемы с запаздывающей обратной связью с выборкой по важности заключается в том, что нам необходимо оценить веса важности w(x,y). В данной работе по формуле X и формуле Y разложим w(x,y)w(x,y) на две части: pdp(x) и prn(x).

Точнее, мы используем два бинарных классификатора для оценки этих двух вероятностей. То есть мы обучаем классификатор fdp предсказывать вероятность отложенного положительного результата, а классификатор frn — предсказывать истинно отрицательный результат.

Архитектура модели fdp(x) и frn(x) такая же, как и модель предсказания CVR. Чтобы построить набор обучающих данных, для каждой выборки (xi, yi) извлеките прошедшее время e из p (e | xi). Тогда для модели FDP положительные числа задержек помечаются как 1, а другие положительные числа помечаются как 0; для модели FRN исключаются положительные наблюдаемые значения, затем отрицательные значения помечаются как 1, а положительные значения задержки отмечены как 0.

На самом деле все эти необходимые метки доступны в потоковых данных, а выбор данных может быть достигнут путем маскирования функции потерь, поэтому мы совместно используем модели frn и fdp с общей сетью при потоковом обучении.

Мы также можем рассчитать веса важности, оценив p(y=1) и p(h>e). В частности, p(y=1) можно оценить с помощью модели fθ(x), обученной на исторических данных после FNW. Кроме того, p(h>e) можно вычислить аналитически, используя конкретный выбор p(h|x,y=1) и p(e|x) (например, полиномиальное распределение). p(h|x, y=1) можно оценить, используя прошлые данные для y=1.

Мы попробовали этот подход с однородным распределением прошедшего времени p(e|x), но результат оказался хуже базового (кросс-энтропийная потеря при наблюдаемом распределении данных). Мы приписываем эту неудачу сложности оценки p(h|x,y=1): предсказать, когда пользователь купит, будет намного сложнее, чем предсказать, купит ли он, поэтому, если мы полагаемся на p(h|x,y = 1), из-за неточной оценки p(h|x, y=1) смещение, вносимое взвешенной моделью, может быть большим.

Bias Analysis of Estimated IW

Функция взвешенных потерь по важности \meqref{emp_loss} является несмещенной с использованием идеальных pdp и prn. Однако может быть введена систематическая ошибка из-за оценочных весов важности fdp и frn. Путем оптимизации функции потерь \meqref{emp_loss} и использования оценочного fdp, frn вместо идеального pdp, prn, предсказуемая вероятность f(x) сходится к:

image.png

Возьмите частную производную \meqref{emp_loss} по f и установите производную равной нулю.

Объединив вышеприведенное уравнение: мы можем сделать следующие наблюдения, которые могут помочь нам спроектировать соответствующее распределение выборки за прошедшее время p (e | x):

  • Во-первых, если frn точно верно, то frn=prn, тогда f(x)=p(y=1), так что смещения нет. Однако на самом деле фрн узнают по историческим данным, и всегда есть предвзятость.

  • Во-вторых, смещение также связано с p(y=1|x) в соответствии с \meqref{gdfm_bias} и \meqref{pneg}. Следовательно, если абсолютное значение коэффициента конверсии велико, смещение, вносимое frn, может быть большим.

  • Наконец, выборочное распределение p(e|x) можно использовать для контроля смещения. Если e длинное, то p(h>e) будет меньше.

Следовательно, p(y=0)+p(y=1)p(h>e) будет близко к p(y=0|x). frn будет ближе к 1, так как ложноотрицательных результатов почти нет. Следовательно, pneg(x)frn(x) ближе к p(y=0|x).

Таким образом, мы можем контролировать распределение задержки (прошедшего времени) p(e|x), чтобы уменьшить смещение, которое является основой для достижения вышеуказанного компромисса и недостающей частью существующих методов.

Экспериментальная часть

Чтобы оценить предложенную модель, мы проводим серию экспериментов, чтобы ответить на следующие вопросы исследования:

  • Как RQ1 сравнивается с современными моделями для задач потокового прогнозирования CVR?
  • Как различные варианты среды выполнения RQ2 влияют на производительность? Каково оптимальное время выполнения для набора данных?
  • Как образцы с неправильной маркировкой RQ3 влияют на метод взвешивания важности в потоковом обучении?
  • Как RQ4ES-DFM работает в рекомендательных онлайн-системах?

Протокол потокового обучающего эксперимента

Мы разрабатываем экспериментальный метод оценки для потокового прогнозирования CVR, который может полностью проверить эффективность различных методов в условиях онлайн-обучения. В этой работе мы разделяем набор потоковых данных на несколько наборов данных на основе временных меток кликов, каждый из которых содержит данные за один час. Модель идет по пути онлайн-обучения промышленных систем: сначала она обучается на данных за t часов, затем тестируется на данных за t+1 час, затем обучается на данных за t+1 час, а затем тестируется на данных за t+2. -часовые данные и т. д. аналогия. Обратите внимание, что обучающие данные реконструируются с поддельными негативами, а оценочные данные — это исходные данные. Поэтому мы сообщаем взвешенные показатели по наборам данных оценки в разное время, чтобы проверить общую производительность различных методов потоковой передачи данных.

Для выбора p(e|x)

Основываясь на экспертных знаниях и приведенном выше анализе смещения, можно разработать распределение затраченного времени выборки p(e|x). Например, пользователям нужно больше времени, чтобы подумать о покупке дорогих продуктов, что требует больше времени ожидания. Однако общедоступный набор данных является анонимным и не содержит такой информации, как уровни цен. Чтобы проверить эффективность введения p(e|x) в настройках потоковой передачи, мы выполняем упрощенную реализацию p(e|x).

Точнее, мы устанавливаем p(e=c|x)=1, где c — константа, что означает, что p(e|x) вырождается из распределения в точку. Это дает нам следующие два преимущества. Во-первых, мы можем найти баланс между получением точной информации об обратной связи и поддержанием актуальности модели, используя только один параметр c. Во-вторых, мы проводим эксперименты с различными c в общедоступных наборах данных, и результаты экспериментов показывают, что выбор наилучшего c может значительно повысить производительность.

Эксперимент со стандартным потоком: RQ1

image.png

Из таблицы видно, что предлагаемая нами схема значительно повышает производительность по сравнению со всеми базовыми показателями, достигая современного уровня производительности. Кроме того, можно сделать некоторые дополнительные наблюдения. DFM работает хуже, чем первый, как с анонимными наборами данных, так и с общедоступными наборами данных. Это связано с тем, что DFM трудно сходиться и, следовательно, не может обеспечить хорошую производительность при потоковом прогнозировании CVR, а FSIW не позволяет корректировать данные после преобразования, что важно для задержки обратной связи. Во-вторых, FNC и FNW в большинстве случаев превосходят обычные базовые уровни. В частности, FNW превосходит базовый уровень как в PR-AUC, так и в NLL, что согласуется с результатами в ~\ciet{FNW}. В-третьих, существующие методы не показывают лучшей производительности с точки зрения AUC, в то время как наш метод превосходит лучшие базовые показатели на 0,26% и 0,44% на общедоступных и анонимных наборах данных соответственно. Как описано в DIN, DIN улучшил показатель AUC на 1,13%, а улучшение онлайн-CTR составило 10,0%, что означает, что небольшое улучшение оффлайн-AUC может привести к значительному увеличению онлайн-CTR. В нашей практике даже улучшение AUC на 0,1% является значительным для современных моделей прогнозирования CVR и обеспечивает значительное онлайн-обобщение.

Эффекты прошедшего времени: RQ2

image.png

Чтобы проверить производительность разных выбранных сред выполнения, мы проводим эксперименты с разными значениями c на наборе данных Criteo. Как показано, лучшее c в наборе данных Criteo составляет около 15 минут, когда можно наблюдать около 35% конверсий.

Кроме того, большее или меньшее c приведет к снижению производительности. При малом c производительность ухудшается медленно, что указывает на то, что модель, взвешенная по важности, вносит меньшую погрешность. Чем больше c, тем быстрее снижается производительность, что позволяет предположить, что актуальность данных важнее при увеличении c, а c, превышающий 1 час, серьезно снижает производительность.

Эксперимент по надежности: RQ3

image.png

При настройке отложенной обратной связи один и тот же образец может быть помечен как отрицательный или положительный. Это тесно связано с обучением с шумными метками, некоторые из которых переворачиваются случайным образом. Мы предполагаем, что метод решения проблемы задержанной обратной связи не только исправляет неправильную метку, но также уменьшает негатив от неправильной метки до того, как исправление неправильной метки или исправление не удастся (например, если весовая модель отклоняется слишком сильно, систематическая ошибка уменьшится). быть большим и коррекция не удастся) Влияние.

Поэтому мы провели эксперименты по устойчивости. Мы случайным образом выбираем d-часть всех положительных выборок в наборе потоковых данных, а затем меняем их метки (время клика и время оплаты) на случайно выбранные отрицательные выборки. Обратите внимание, что мы не нарушаем предварительно обученный набор данных, поэтому исходная модель CVR и предварительно обученная модель взвешивания важности не нарушаются.

Мы провели эксперименты с различной силой интерференции d, и результаты показаны на рисунке. Мы видим, что по сравнению с FNW и FSIW наш метод имеет более сильную защиту от помех, а разрыв в производительности увеличивается по мере увеличения помех (особенно на NLL).

Причина, по которой FNW не является антипомеховой, заключается в том, что взвешенная оценка FNW и предсказания CVR используют одну и ту же модель, поэтому искаженная выборка CVR не только повлияет на модель предсказания CVR, но также повлияет на вес важности, что еще больше ослабит ложноотрицательный FNW Возможность коррекции. Для FSIW, поскольку его вычисление взвешивания важности имеет обратную величину и его значение не ограничено, веса могут быть большими для неправильных выборок, и производительность значительно ухудшается при увеличении d.

Онлайн ABTest: RQ4

Мы провели A/B-тестирование в рамках онлайн-оценки. Мы наблюдали постоянное улучшение производительности: AUC увеличился на 0,3% за 7 дней, CVR на 0,7% и GMV (валовой объем товаров) на 1,8% по сравнению с лучшим эталоном, где GMV рассчитывается по количеству транзакций. Умножить на цену каждый предмет. Результаты онлайн-тестирования A/B соответствуют нашей оценке потоковой передачи в автономном режиме и показывают эффективность ES-DFM в промышленных системах.

Суммировать

Компромисс между точностью метки и свежестью модели в настройках потокового обучения никогда не рассматривается, что является активным решением метода, а не пассивной функцией в автономном режиме. В этой статье мы предлагаем распределение прошедшего времени, чтобы сбалансировать точность меток и свежесть модели, чтобы решить проблему задержки обратной связи при потоковом прогнозировании CVR. Мы оптимизируем ожидание истинного распределения конверсий с помощью выборки по важности при временном распределении. Кроме того, мы предлагаем строгий экспериментальный протокол обучения и тестирования потоковой передачи, который может лучше соответствовать реальным промышленным приложениям. Наконец, обширные эксперименты демонстрируют превосходство нашего метода.

перспективы на будущее

Более сложное распределение выборки p(e|x) + оценка p(h|x,y=1) для всего распределения задержки имеет следующие проблемы:

  • Распределение выборки трудно оптимизировать, и его можно выбирать вручную, что затрудняет настройку параметров.
  • Задача распределения задержки сложна, что приводит к большому отклонению;
  • При многошаговом расчете происходит накопление ошибок, и отклонение еще больше увеличивается.

использованная литература

[1]. Pattern recognition and machine learning, Springer 2017

[2]. Modeling Delayed Feedback in Display Advertising, KDD 2014

[3]. Addressing Delayed Feedback for Continuous Training with Neural Networks in CTR prediction, Recsys 2019

[4]. A Feedback Shift Correction in Predicting Conversion Rates under Delayed Feedback, WWW 2020

[5]. A Nonparametric Delayed Feedback Model for Conversion Rate Prediction, arxiv 2018

——————————————————————————————————————————

Alibaba Group Сямэнь Департамент Технологический отдел 2021 Набор стажеров ~

Технологический отдел Департамента Дао — это команда с двойной спиралью генов бизнеса и технологий, отвечающая за технологии и бизнес Taobao, Tmall, Xianyu и Liping.

Пока вы интересуетесь технологиями и хотите расти вместе с командой, вы можете отправить свое резюме на почтовый ящик!

Место работы: Ханчжоу\Пекин

Почта:leo.lx@alibaba-inc.com