Прорыв и воображение технологии оценки глубины рекламы на сцене Meituan в магазине

искусственный интеллект алгоритм
Прорыв и воображение технологии оценки глубины рекламы на сцене Meituan в магазине

Предыстория и введение

1. Предпосылки

Проблема CTR/коэффициента конверсии/оценки транзакций является ядром области рекламы/рекомендаций, и точность расчетного значения напрямую связана с доходом и развитием платформы рекламы/рекомендаций. Поэтому это направление привлекло обширные исследования как в академических кругах, так и в промышленности, и стало одной из самых успешных областей применения технологий машинного обучения/глубокого обучения.

Благодаря продвижению масштабных фреймворков глубокого обучения и успешных приложений в имиджевом, НЛП и других направлениях, технология глубокого обучения внедряется в сферу рекламы и рекомендаций, особенно в задаче оценки кликрейта/коэффициента конверсии/объема транзакций. и добился больших успехов, стал основным методом в отрасли. По сравнению с традиционными методами машинного обучения [1][2], DNN (глубокая нейронная сеть) [3][4][5] обладает как памятью, так и обобщением [6], что показывает большие преимущества в способности подбора. Однако после нескольких лет разработки оптимизация глубинных моделей становилась все более сложной, и прежняя модель «нахождения гвоздя молотком» — одностороннего увеличения сложности модели уже не эффективна. В этом контексте, как преодолеть новые узкие места?

В течение последних двух лет команда Meituan по оценке качества рекламы в магазинах проводила непрерывную практику и исследования: благодаря глубокой интеграции с бизнес-характеристиками Meituan и преимуществам гибкого дизайна структуры DNN появилось большое количество новых моделей и технологий. out, команда Найти выход.

2. Особенности бизнеса и проблемы

Общий дизайн модели тесно связан с характеристиками бизнеса, бизнес-формой команды, а основные сценарии охватывают три бизнес-формы поисковой рекламы по обе стороны Meituan/Dianping, просмотренные рекламные списки и информационный поток. рекламные объявления (как показано на рисунке 1), намерение В порядке от сильного к слабому. Каждый бизнес также включает в себя различные категории, такие как общественное питание, красота, отдых и развлечения, брак и отели. Богатые бизнес-характеристики требуют объединения алгоритма с разных точек зрения, что дает команде широкие возможности для непрерывного гибкого проектирования новых моделей.

图1 美团/大众点评双平台各自三种广告形式

Для дальнейшего понимания бизнес-характеристик упомянутый выше тип бизнеса O2O (онлайн в офлайн), который сочетает в себе возможности офлайн-бизнеса с Интернетом, отличается от традиционного онлайн-бизнеса в двух аспектах. "В режиме Online to Offline. В процессе перехода от онлайна к автономному пользователи будут обращать внимание на фактор расстояния между онлайн и офлайн, поэтому ограничение расстояния пространственного измерения LBS (служба на основе местоположения) является важной функцией; с другой стороны, «Не в сети» в режиме «онлайн в офлайн», привычки потребления в офлайн-магазине, цикл поведения имеет очевидные временные характеристики, такие как поведение фиксированного потребления в маникюре на месячном уровне, поэтому долгосрочная периодичность является еще одной важной особенностью.

Основываясь на приведенных выше бизнес-характеристиках O2O, общий дизайн модели имеет следующие проблемы в пространстве и времени.

А. Ограничения по пространственному расстоянию LBS:

  • Функции: Интернет-магазины/продукты должны отображаться в условиях ограниченного расстояния, и существуют большие различия в разных пространственных местоположениях.
  • вызов: это создает проблемы, такие как большое разнообразие кандидатов и важная характеристика контекста.

б. Долгосрочная периодичность:

  • Функции: потребительские привычки в магазине сильно цикличны и оказывают большое влияние на долгосрочное поведение.
  • вызов: Моделирование долгосрочного интереса пользователей является большой проблемой, и, поскольку традиционный метод обучения модели с трудом поддается изучению периодичности, метод обучения имеет проблему забывания исторической информации.

3. Технология оценки глубины

Нацелившись на проблемы, связанные с ограничениями расстояния LBS и длительной периодичностью, ниже будет кратко представлено техническое решение прогнозирования CTR (Click-through Rate). С точки зрения классификации машинного обучения оценка CTR — это контролируемая задача машинного обучения:minf(f(u,a,c),y)min_f\ell(f(u,a,c),y), оптимальная функция предсказанияf^\hat{f}пользователем (uu),реклама(aa), контекст (cc) вход функции в трех измерениях, а функция решения тренировочного процесса (minfmin_f), где контекст включает информацию в реальном времени, такую ​​как запрос запроса, контекст списка запросов и географическое местоположение запроса.

Как показано на рисунке 2, мы объединяем две основные проблемы ограничения расстояния LBS и длительной периодичности для оптимизации функции моделирования прогнозирования CTR (пользователь, реклама, контекст и процесс обучения):

图2 CTR预估建模关系图

А. Ввод функций: моделирование контекста, пользователя и рекламы.

Предсказание с учетом контекста, основанное на комбинации рангов (контекст): из-за проблем с ограничениями расстояния LBS разница в пространственном расположении оказывает большое влияние на различные контексты отображения, поэтому для моделирования комбинации рекламы и рейтинга используется сеть пересечений с глубоким ранжированием, а восприятие контекстного отклонения при разных запросах расширен на основе информации о ранжировании.Моделирование очень длинных последовательностей на основе пространственно-временных зависимостей (пользователь): Стремясь решить проблемы длительной периодичности и ограничений расстояния LBS, с одной стороны, он реализует моделирование сверхдлинной последовательности на основе механизма предварительной подготовки для захвата периодического поведения пользователя; с другой стороны, он реализует пространственно-временной стык. моделирование последовательностей поведения для оптимизации проблемы ограничения расстояния LBS.Динамика кандидата в рекламу (реклама): из-за проблем с ограничениями расстояния LBS пространственные различия вызывают большие различия в кандидатах в разных местах, и существует совпадающая связь между рекламой и выражениями пользователя (как показано на рисунке 2).Только когда адекватность предложения рекламы гарантирована, можно ли обновить отношения пользователь-реклама хорошее моделирование. Таким образом, три аспекта: количество/тип кандидата/вычислительный ресурс рекламного объявления являются динамическими, чтобы обеспечить предложение, соответствующее потребностям пользователя.

B. Функциональное решение: метод обучения модели

Забвение катастроф и непрерывное обучение (метод обучения): для долгосрочных периодических задач многомерные разреженные модели будут забывать исторические данные при изучении последних данных, что приводит к катастрофическому забыванию. Непрерывное обучение осуществляется через структуру памяти с возможностью воспроизведения данных для эффективного описания цикла исторических данных.Общая сеть показана на рисунке 3. В сочетании с оптимизацией вышеупомянутых аспектов пользователя/рекламы/контекста/обучения метод реализации состоит из трех модулей: блока представления, блока памяти и блока комбинирования.Система прогнозирования высокого уровня.. Среди них блок представления строит пространственно-временную зависимую активацию путем загрузки потоковых данных, комбинируя сверхдлинные последовательности и последовательности реального времени (Пользовательская часть блока представления на рисунке); блок памяти интегрирует исторические и текущие данные, а на основе управления потоком данных, обеспечивает изучение выражений исторических сверхдлинных последовательностей (пользовательская часть блока памяти на рисунке), реализует моделирование интереса всего жизненного цикла пользователей, длина последовательности которых составляет 2000 ~ 10000. С другой стороны, столкнувшись с проблемой катастрофического забывания [10], непрерывное обучение выполняется через структуру памяти с возможностью воспроизведения данных (обучающая часть на рисунке) для достижения высокоточного одноточечного прогнозирования. Блок комбинирования обеспечивает возможности комбинирования. С точки зрения рекламы, комплексное представление блока памяти может быть объединено с несколькими товарными представлениями (часть рекламы на рисунке). С точки зрения контекста, оно может быть объединено с представлениями нескольких рангов. для объединения одного магазина Возможность прогнозирования распространяется на несколько рангов и несколько товаров (контекстная часть на рисунке), а затем воспринимается отклонение контекста отображения, чтобы реализовать высокоточную и высокоуровневую комбинированную систему прогнозирования (Уточненная онлайн-оценочная магнитуда 3000+).

图3 CTR预估整体网络图

Далее будут представлены технические прорывы в четырех аспектах: контекст, пользователь, реклама и обучение..

Предвидеть технологические прорывы

1. Контекст: предсказание с учетом контекста на основе комбинации рангов.

Поскольку при обучении модели прогнозирования CTR обычно используются данные о показах кликов, которые являются неявными данными обратной связи, неизбежно возникнут различные проблемы смещения, такие как смещение ранжирования, смещение выбора, смещение популярности и т. д. Возьмем в качестве примера отклонение ранга (его часто называют отклонением позиции, чтобы отличить его от позиции LBS в этой статье, мы называем его отклонением ранга), потому что в сценарии страницы списка поиска пользователи просматривают от сверху вниз. Поведенческие привычки, рекламные объявления с самым высоким рейтингом обычно привлекают больше внимания и, следовательно, имеют более высокий CTR. Эта тенденция ранжирования будет накапливаться в данных, что приведет к проблеме систематической ошибки в данных. Кроме того, отклонение, вызванное разницей кликов, генерируемой контекстом всего списка, постепенно привлекло внимание отрасли, и в данной статье это отклонение называется контекстным отклонением. В условиях ограничения пространственного расстояния LBS отклонение ранга и отклонение контекста более заметны, чем в традиционных сценариях электронной коммерции.Далее подробно описывается проблема.

Демонстрировать контекстную предвзятость: при ограничении расстояния LBS в сценарии O2O списки, отображаемые по одним и тем же поисковым запросам в разных географических точках, очень различаются. Однако, поскольку в традиционной электронной коммерции нет ограничения LBS, часто проще сортировать и отображать одинаковые поисковые запросы в зависимости от их популярности. Вот сравнение. В этом случае контекст отображения LBS оказывает большее влияние на рекламу, что приводит к большой разнице данных в разных контекстах. Что касается отклонения ранжирования, то отклонение ранжирования традиционной электронной коммерции, как правило, является фиксированным отклонением, в то время как отклонение ранжирования при ограничении LBS значительно различается в разных контекстах. в верхних строчках легко привлечь пользователей к клику, и легче сформировать поведенческую привычку пользователей, кликающих по верхним строчкам. При этом качество торговцев в городах первого эшелона невелико, а качество торговцев в городах третьего эшелона неравномерно, что приводит к различиям в рекламе из-за естественного влияния их контекстов. скорость показа одной и той же рекламы в разных естественных контекстах также различна.Влияя на разные контексты, существуют разные решения, и эта разница также будет накапливаться в данных, что приводит к контекстуальной предвзятости в данных. По этой причине в этой статье два типа отклонений, отклонение ранжирования и отклонение контекста, вызванное естественным влиянием различных контекстов, объединены в отклонение контекста отображения. В бизнесе Meituan намерение пользователя в сценарии поисковой рекламы сильнее, и оно больше связано с верхними рекламными позициями, а отклонение в рейтинге велико, в то время как в сценарии рекламы с отсеивающим списком пользователи с неясными намерениями, как правило, просматривают больше. реклама. Потенциальные высококачественные продавцы, поэтому отклонение контекста велико. Команда объединила эти бизнес-характеристики, чтобы продвигать технологию прогнозирования с учетом контекстного отклонения на основе комбинации рангов в различных сценариях.

Техническая основа ранжирования комбинаций: Основываясь на проблеме отклонения ранга, мы сначала запускаем структуру модели Deep Position-wise Interaction Network (DPIN) для одновременной оценки CTR нескольких рангов. Как показано на рисунке 4, модель DPIN состоит из трех модулей: базового модуля для обработки J (например, 200) рекламных объявлений-кандидатов и ранжирования по глубине для обработки K (например, 10) рекламных позиций-кандидатов. (Модуль глубокого позиционного взаимодействия) и Модуль позиционного комбинирования (Модуль позиционного комбинирования), объединяющих JXK (например, 2000) кросс-кандидатов, количество выборок, подлежащих оценке, для разных модулей различно, и оценочное количество сложные модули отличаются.Количество выборок невелико, а количество выборок, оцениваемых простым модулем, велико, тем самым улучшая производительность модели и обеспечивая производительность службы. Благодаря сочетанию этих трех модулей модель DPIN имеет возможность оценивать CTR каждого объявления на каждом ранге с учетом ограничений производительности службы и изучать глубокое нелинейное перекрестное представление информации о ранге и другой информации [6].

контекстуальное обучение с учетом предвзятости: Техническая структура DPIN имеет возможность глубокого пересечения ранговых сигналов, чтобы реализовать многоранговое прогнозирование CTR. Исходя из этого, за счет бизнес-характеристик раздельной сортировки естественных рекламных объявлений и вставки рекламных объявлений в натуральные списки, мы можем рассматривать отсортированные натуральные списки при оценке рекламных объявлений, а техническая база многоранговой оценки позволяет рекламным объявлениям воспринимать их возможности местного природного контекста. Поэтому мы рассматриваем естественную информацию соседства каждого ранга на основе DPIN.Как показано на рисунке 4, модуль пересечения глубокого ранга основан на рассмотрении ранга, контекста и исторического поведения пользовательских рангов посредством естественного агрегирования контекста ( позиция -wise Context Aggregation) для восприятия и агрегирования информации о локальном естественном контексте, чтобы лучше смягчить предвзятость контекста. Кроме того, естественная реклама и реклама в одном и том же контексте однородны, мы усиливаем конкурентное моделирование между естественной рекламой с помощью функции потерь Listwise на основе неоднородности и усиливаем моделирование взаимосвязей между рекламой с помощью адаптивной выборки на основе однородности.

Прогнозирование с учетом контекста, основанное на комбинации рейтингов, было реализовано в нескольких основных рекламных позициях, а показатель RPM (доход на тысячу), который измеряет доход от рекламы, увеличился на 2–3%.

Подробную информацию см. в документе группы SIGIR 2021 «Сеть глубокого позиционного взаимодействия для прогнозирования CTR»[6].

图4 基于位次组合的上下文偏差感知网络

2. Пользователь: Моделирование очень длинных последовательностей на основе пространственно-временных зависимостей.

Для двух задач, связанных с длинной периодичностью и ограничениями LBS, выполняется глубокая оптимизация пользовательского моделирования. С одной стороны, для долгосрочных задач, основанных на принципе построения последовательности поведения пользователя «разделение длинных и коротких», долгосрочные интересы моделируются путем предварительного обучения; -зависимое изучение времени и пространства осуществляется посредством пространственно-временного моделирования, которое эффективно Характеризует выражения пользователя в различных пространственно-временных условиях.

Долгосрочная поведенческая сложность пользователя: в сценарии Meituan O2O поведение пользователей имеет очевидную ежемесячную периодичность (как показано на рисунке 5), а периодичность между поведениями совершенно другая Моделирование длинных последовательностей пользователей является необходимым условием для фиксации характеристик периодического поведения. С точки зрения временной и пространственной зависимости клики пользователей имеют очевидные характеристики «длительной дисперсии и короткой агрегации» (как показано на рис. 6), то есть географическое расположение пользователей собирается в одной точке за короткий промежуток времени, но в долгосрочной перспективе пользователи будут перемещаться по разным географическим точкам, а в сверхдолгий период большинство пользователей также будут перемещаться между провинциями и городами. Следовательно, существует потенциал для совместного пространственно-временного моделирования суставов.

图5 不同类目行为的平均点击间隔天数

图6 用户地理位置漫游“长分散、短聚合”特点示例

Суммируя вышеперечисленные два аспекта, общее моделирование выглядит следующим образом:

P(click=1)=f(a,u,c,h(s)),P(click=1)=f(a,u,c,h(s)),  where s={(ai,ti,gi)}iеN,\text{ where } s = \{(a_i, t_i, g_i)\}_{i\in N},

К ним относятся 1) Предварительная подготовка сверхдлинных последовательностей:h(s)h(s)часть, смоделируйте ее как последовательность, которая зависит только от историиssВ качестве входных данных и вектора интереса пользователя в качестве выходных данных подсеть поддерживает производительность рассуждений сверхдлинных последовательностей на тысячах уровней; 2) Пространственно-временное совместное моделирование:s={(ai,ti,gi)}iеNs = \{(a_i, t_i, g_i)\}_{i\in N}Часть моделирования. Подробности описаны ниже.

Предварительная подготовка к очень длинным последовательностям: Ввиду проблем с производительностью вышеуказанных сверхдлинных последовательностей, основанных на схеме «разделения длинной и короткой», сверхдлинные последовательности предварительно обучаются отдельно (как показано на рисунке 7) и отделяются от коротких. -term expressions.Модуль сверхдлинной последовательности отвечает за активацию последовательности всего жизненного цикла пользователя и уменьшение размерности для извлечения выражений долгосрочных интересов пользователей. Основная модель отвечает за объединение долгосрочных и краткосрочных представлений пользователей. Во время онлайн-логического вывода сверхдлинная последовательность может напрямую считывать вектор экспрессии кеша дневного уровня, дополнять потерю эффекта из-за невозможности обновления в реальном времени через часть краткосрочной экспрессии, а затем объединять долгосрочную и краткосрочное выражение интереса, а конечное увеличение производительности в сети с исходных 30+ мс сокращается до менее 1 мс, реализуя сложные рассуждения последовательностей из тысячи уровней. Чтобы зафиксировать периодические поведенческие интересы пользователя, принята схема структуры уровня активатора по каналам (как показано на рисунке 7), а сверхдлинная последовательность разделена на временные подпоследовательности (подпоследовательность), и после добавления поведенческого представление динамического временного интервала, активация многоканального выражения выполняется с одним и тем же атрибутом разницы, чтобы реализовать выражение интереса на основе периодической разницы категорий. По сравнению с отраслевой схемой сверхдлинных последовательностей, основанной на поиске корреляции [7], вышеупомянутая предварительная подготовка сверхдлинных последовательностей не отбрасывает несходные выражения и полностью моделирует все виды поведения. Например, намерения барбекю и вегетарианской пищи, тренажерный зал и фаст-фуд отрицательно коррелируют, но сильно влияют друг на друга.Более общие поведенческие влияния, такие как отрицательная корреляция над предтренировочным моделированием, также более значимы, чем метод поиска [7]. в наборе данных Meituan Эффект.

Совместное пространственно-временное моделирование: Опираясь на бизнес-характеристики и задачи Meituan O2O, мы полностью учитываем его временные и пространственные атрибуты, полностью моделируем и взаимодействуем с исторической и текущей временной и пространственной информацией пользователей. Мы различаем тройную пространственно-временную информацию о поведении пользователя, а именно: время, когда пользователь нажимает, географическое местоположение запроса пользователя и географическое местоположение бизнеса, на который нажимает пользователь. Основываясь на приведенной выше тройной пространственно-временной информации, мы предлагаем пространственно-временной активаторный слой (как показано на рисунке 7): нейронная сеть с трехсторонним пространственно-временным механизмом внимания для моделирования исторического поведения пользователя.Взаимодействие включает в себя глубокое пересечение однородной пространственной информации (историческое местоположение запроса пользователя и текущее местоположение пользователя, историческое местонахождение бизнеса пользователя и текущее целевое местоположение бизнеса пользователя и т. д.), глубокое пересечение разнородной пространственной информации (историческое местоположение запроса пользователя и текущее местоположение пользователя) Целевое местоположение POI, историческое местоположение продавца, по которому пользователь нажимал, и текущее местоположение запроса пользователя), трехсторонний механизм пространственно-временного информационного взаимодействия с глубоким пересечением информации о времени. Для пересечения пространственной информации мы дополнительно используем комбинацию хеш-кодирования географического местоположения и сферического расстояния, чтобы всесторонне выразить абсолютную пространственную информацию и информацию об относительном положении, а для пересечения информации о времени мы также используем комбинацию абсолютного и относительного времени. трехстороннее выражение последовательностей поведения пользователя в различных пространственно-временных условиях. С точки зрения бизнеса мы выполняем динамическую нормализацию представления пространственной информации для различных бизнес-характеристик. Например, в продовольственном бизнесе мы описываем информацию об относительном расстоянии между местом поиска пользователя и продавцом; в то время как в гостиничном бизнесе с более сильными атрибутами пространственного изменения, когда поисковый запрос пользователя содержит адресные слова, мы описываем информацию об относительном расстоянии между адрес и целевой продавец. Наконец, пространственно-временная информация, закодированная вышеупомянутой сетью, объединяется сетью механизма внимания для получения персонализированного выражения сверхдлинной последовательности поведения пользователя для различных кандидатов-кандидатов запроса в сценарии LBS.

В каждом основном рекламном слоте реализовано моделирование сверхдлинной последовательности на основе пространственно-временной зависимости, а RPM увеличен на 2-5%.

Подробнее см. в документе группы CIKM 2021 «Трехсторонняя пространственно-временная сеть внимания для моделирования поведения пользователей в поиске на основе местоположения»[8].

图7 基于时空依赖的超长序列模型图

3. Реклама: кандидаты на динамическую рекламу

Между рекламой и пользователями существует соответствующая взаимосвязь. На основе точного понимания намерений пользователей достаточное количество рекламы может способствовать дальнейшему раскрытию потенциала. Однако при вызове ограничения расстояния LBS кандидаты на рекламу разных запросов сильно различаются.

Поэтому, как показано на рисунке 8, мы строим динамическую систему рекламных кандидатов из трех измерений количества кандидатов, типа кандидатов и вычислительной мощности кандидатов для достижения уточненного согласования предложения Конкретная оптимизация выглядит следующим образом:

图8 广告候选动态化三维图

Динамика кандидатов: В области рекламы/рекомендаций, из-за ограничений производительности и ресурсов, механизм отзыв-> грубая сортировка-> точная сортировка->, усечение кандидатов воронки обычно существует между каждым уровнем, а количество кандидатов на точную сортировку обычно устанавливается равным фиксированное значение. Бизнес Meituan характеризуется значительными ограничениями по расстоянию, а среднее количество кандидатов в крупных городах в 59 раз больше, чем в малых городах. После того, как количество кандидатов будет динамическим на основе пространственной детализации городов, деловых районов и т. д., эффект ранжирования популярных областей может быть максимизирован при фиксированных ресурсах, особенно в крупных городах, RPM увеличивается примерно на 20%.

Из-за значительного увеличения числа кандидатов модель тонкой организации имеет более серьезную проблему смещения избирательности - кандидаты расширения, с которыми сталкиваются онлайн, несовместимы с кандидатами предыдущей системы и являются надмножеством кандидатов системы. перед расширением. Трафик, соответствующий расширению кандидата, понимается как трафик Explore, а обучение модели CTR оптимизируется в несколько этапов, и получаются дальнейшие результаты [13].Общая оптимизация увеличивает RPS на 5% до 10% частично просмотренных списков рекламных объявлений.

динамизация типа кандидата: На основе динамики количества кандидатов мы дополнительно проводим динамику типа кандидатов. Поскольку разные типы являются рекламными объявлениями, мы не используем здесь понятие «Реклама». тот же магазин) См. рисунок выше, например, в категории свадьбы много свадебных фотографий.После расширения типов кандидатов с магазинов на магазины + пантовары, предложение кандидатов может быть расширено примерно в 30 раз в некоторых категориях. А в бизнесе намерения пользователей постепенно становятся более конкретными, проясненными и разнообразными: например, увеличилось количество поисковых ключевых слов, таких как «фотография», и грубых кандидатов в магазины уже недостаточно, чтобы соответствовать детальным намерениям пользователей. Благодаря глубоко персонализированному перетасовыванию разнородных кандидатов можно сопоставить детализированные намерения пользователя, и пользователю может быть показан тип кандидата, который лучше всего соответствует его интересам и предпочтениям. Как показано на рисунке 9, мы реализуем гетерогенную систему перетасовки с помощью комбинированного прогнозирования.Представление хранилища высокой сложности основной сети передается и выравнивается с товарным представлением высокого порядка товарной сети посредством передачи обучения общему выражению, и реализация тысяч крупномасштабных складских/товарных гетерогенных смесительных систем. Увеличение RPM рекламы на 10–15 % в некоторых списках фильтров.

图9 异构混排网络

Динамическая вычислительная мощность кандидата: благодаря динамическому предложению кандидатов мы обнаружили, что большее количество кандидатов может обеспечить эффект пространства.На этой основе мы увеличиваем динамическую вычислительную мощность и дополнительно улучшаем величину кандидатов с точки зрения производительности. После того, как рекламная система получит запрос, она пройдет через модули отзыва, грубой компоновки, точной компоновки и механизма, чтобы, наконец, сгенерировать последовательность отображения рекламы. Время ожидания и ресурсы каждого модуля фиксированы, что приводит к отсутствию гибкости в общей вычислительной мощности.Легко вызвать тайм-аут общего запроса без рекламы из-за слишком большого количества кандидатов или растратить избыточную вычислительную мощность из-за слишком мало кандидатов. Поэтому мы делаем вычислительную мощность кандидата динамической, корректируем время работы каждого модуля в соответствии со значением трафика и максимизируем прибыль при ограниченной вычислительной мощности за счет глобальной оптимизации: во-первых, увеличиваем эластичные переменные вычислительной мощности каждого сервиса на инженерных структура, такая как время ожидания, сложность модели и параллелизм вычислений и т. д., реализуют гибкий обмен эффектами и вычислительной мощностью. После этого текущая стоимость запроса оценивается модулем оценки стоимости трафика в алгоритме и определяется оценка каждого этапа. На следующих этапах обслуживания, в сочетании с текущим потреблением вычислительной мощности и расчетным значением, эластичные переменные вычислительной мощности на последующих этапах корректируются немедленно, что еще больше высвобождает пространство эффектов. RPM объявления увеличился примерно на 2% в списке фильтров.

Динамический эффект кандидатов сильно различается в каждой основной рекламной площадке, а прирост RPM колеблется от 2% до 15%. В то же время мы добились результатов за счет мультимодального изучения выражений при оптимизации рекламы, и подробности будут опубликованы в статье позже.

4. Метод обучения: забывание катастроф и непрерывное обучение.

Катастрофическое забывание [10] — это важное различие между обучением модели и обучением человеческого мозга, которое означает, что когда та же сетевая модель изучает новую задачу, вес модели, изученной из старой задачи, снижается из-за изменений распределения. В рекламном бизнесе Meituan как пользователи, так и продавцы имеют периодические характеристики, и характеристики многомерных и разреженных сетей будут усиливать эту характеристику.Явление заключается в том, что в процессе подгонки новых моделей данных старые данные с периодичностью забываются, в результате бедствия забыть. Далее будет представлена ​​долгосрочная периодическая задача, проблема структуры многомерной разреженной сети и соответствующее решение для непрерывного обучения.

Шаблон периодических данных: В отличие от традиционных данных машинного обучения, независимых и одинаково распределенных предположений (i.i.d), модели прогнозирования CTR сталкиваются с динамической и нестационарной внешней средой. В частности, в нашем бизнесе O2O постоянно появляются новые пользователи и новые продавцы, а популярные элементы, такие как раки, барбекю и т. д., время от времени развиваются, смешиваясь с праздничными, сезонными, еженедельными и часовыми функциями, такими как легкие закуски в течение недели и приемы пищи в выходные дни, что создает проблему для непрерывного изучения модели прогнозирования CTR, требуя, чтобы наша модель могла быстро соответствовать новым шаблонам данных. Распространенным выбором для задач обучения на таких изменяющихся во времени данных является потоковое обучение. Потоковое обучение передает данные в модель в хронологическом порядке и использует Regret[11] в качестве цели, позволяющей модели динамически корректировать параметры модели в режиме реального времени для достижения цели подбора последнего распределения данных. Тем не менее, чисто потоковое обучение рискует чрезмерно подчеркнуть новые шаблоны данных и забыть старые шаблоны данных, изученные в прошлом. В частности, в нашем бизнес-сценарии O2O существует большое количество периодических шаблонов данных, которые будут представлены на примере недельного цикла.

Структурное согласование многомерных разреженных сетей: В отличие от области NLP/CV, модель DNN в области рекламы/рекомендаций имеет значительный дисбаланс параметров, то есть многомерный и разреженный слой Embedding имеет от 100 миллионов до 100 миллиардов параметров, в то время как связь между Embedding и Output Уровень FC (полностью подключенные слои) является низкоразмерным и плотным, а чрезвычайно разреженный уровень внедрения в сеть занимает 99,99% + параметров Этот дисбаланс легко вызывает проблему забывания старых шаблонов данных. Если взять в качестве примера функцию дня недели режима обновления на уровне дня, данные для онлайн-вывода — это данные за субботу (t, w(t) = 6), в пятницу (t-1), но на самом деле в субботу (t-7) предыдущей недели он имеет более сильную согласованность распределения с данными онлайн-вывода (t). В частности, если мы используем дискретную характеристику дня недели, многомерный разреженный слой внедрения будет напрямую запрашивать вложение t-7 дней во время онлайн-вывода, в то время как низкоразмерный плотный слой FC будет запрашивать t-1, слой FC, вызовет серьезную проблему структурного несоответствия, что приведет к катастрофическому забыванию шаблона еженедельных атрибутов. В более общем плане происходит катастрофическое забывание сложных схем, таких как легкие приемы пищи в середине недели и обильные приемы пищи в выходные дни на тренировках, что приводит к значительному ухудшению эффекта.

Непрерывное обучение для будущего распространения: Чтобы систематически решать вышеуказанные проблемы, мы применяем технологию воспроизведения данных в непрерывном обучении и дополнительно подгоняем данные воспроизведения на основе потокового обучения, чтобы усилить способность модели к непрерывному обучению, не забывая об ограничениях. В частности, чтобы объединить технологию воспроизведения данных потокового обучения и непрерывного обучения, мы используем многоуровневую структуру FC с несколькими башнями, чтобы модель предварительного обучения могла обновляться в потоке, а модель непрерывного обучения могла полагаться на последняя модель предварительной подготовки, чтобы лучше соответствовать текущему влиянию данных. Как показано на рисунке 10 ниже, мы поддерживаем модель перед обучением посредством потокового обучения; во избежание переобучения модели последними данными, что может привести к несоответствию исторических разреженных параметров слоя внедрения и параметров верхнего уровня FC, данные контроллер (контроллер данных)) поддерживает набор памяти (набор памяти), данные в котором прогнозируются на основе будущего распределения, выбираются из исторических данных, а набор памяти предоставляется базовой модели для непрерывного обучения, чтобы усилить понимание будущих данных о распределении Способность прогнозирования модели.

Технология непрерывного обучения реализована в каждой основной рекламной площадке, а RPM увеличен на 2%~3%. Более подробная информация была собрана в представленной статье, которая будет опубликована в будущем.

图10 灾难遗忘与持续学习训练模式

Предвидеть новые тенденции в технологиях

Прорыв в технологии CTR, основанный на характеристиках O2O, был представлен выше. Мы будем продвигать метод оптимизации для задачи оценки коэффициента конверсии и суммы транзакции. Среди них ограничение расстояния LBS играет более важную роль в коэффициенте конверсии. Потому что метод близко, здесь повторяться не буду.

Эффект оценки CTR и оптимизации одной и той же технологии также имеет определенные различия в разных типах бизнеса: в сценариях поисковой рекламы с сильными намерениями контекстные различия больше, а оптимизация, связанная с контекстом, имеет более очевидные эффекты. В сценарии рекламы информационного потока со слабым намерением моделирование пользователя имеет больше места.

Затем запускается система, предсказывающая, как непрерывно пробиваться технологии? Итеративный путь достиг результатов от улучшения сложности модели на ранней стадии до гибкого дизайна модели в сочетании с проблемой на текущем этапе.Мы считаем, что в будущем статус-кво модуля и целевой установки будет все больше и больше отбрасывается, и искусственные допущения в моделировании будут устранены.

Как сорвать кокон и вернуться к сути проблемы? Мы считаем, что есть новые тенденции следующим образом.

а. Динамика величины вывода в модели

Рекламная система обычно делится на несколько модулей, таких как отзыв, приблизительное размещение и точное размещение (оценка).Основная логика дизайна, за которой следует воронка модуля, заключается в том, что простые модули оцениваются на высоком уровне (например, грубое размещение) и сложные модули оцениваются на низком уровне (например, мелкий ряд). Для дальнейшего понимания конструкции подмодуля с рекурсивной точки зрения и обобщения логики проектирования в модели также существуют методы оптимизации, в которых простые части сети имеют большие веса, сложные части сети имеют малые веса, а одна и та же сеть имеет разные веса. . Например, сетевая структура с двумя башнями (сеть с двумя башнями), обычно используемая в грубой гребле, оценивается один раз на стороне пользователя и несколько раз на стороне рекламы.

Более общая форма не ограничивается двухбашенной структурой с ограниченными выразительными возможностями, а более полно использует взаимосвязь между весом и сложностью для гибкого дизайна, такого как DPIN (Deep Position-wise Interaction Network), описанный в этой статье [ 7] Комбинированная сетевая часть имеет большой вес, а базовая сетевая часть имеет малый вес.Так же, как гетерогенная перемешиваемая сеть, описанная в этой статье, предобучающая оптимизация сверхдлинной последовательности также применима к этому тренду .

В будущем величина логического вывода будет динамичной на более детальном уровне, а общий оптимальный баланс будет достигаться за счет баланса между каждой локальной точностью и производительностью.

б. Дифференциация показателей оценки между вопросами

Метрика оценки является еще более важным вопросом, чем метод оптимизации.Наиболее классической метрикой оценки для оценки CTR является AUC.С повышением точности модели несоответствие между улучшением AUC в автономном режиме и онлайн постепенно увеличивается. Возвращаясь к самой проблеме оценки, фактическая система сортировки — это оптимальное упорядочение при фиксированном запросе и фиксированном порядке, что эквивалентно оптимальному упорядочению объявлений при ограничениях Пользователь × Контекст × Время.

Временные условия постоянно меняются, и это сложно смоделировать.Чтобы упростить задачу, группы группируются по размеру «Пользователь/Контекст», чтобы приблизиться к оптимальному порядку рекламы. Исходя из вышеизложенных предположений, «межгрупповой порядок» и «внутригрупповой порядок» группировки «Пользователь/Контекст» не имеют эквивалентного бизнес-значения. Например, в задаче персонализированной оптимизации, где каждый пользователь сгруппирован как группа, AUC группы пользователей [12] имеет более сильную согласованность на одной и той же строке; а в задаче смещения позиции в контексте мы обнаружили, что с помощью группы позиций AUC (PAUC) [7] оценивает онлайн-системы с большей согласованностью. В контексте растущих проблем, связанных с глобальным ростом AUC, ключевой тенденцией является достижение результатов путем разработки различных показателей оценки для различных проблем, чтобы направлять оптимизацию модели.

c. Целевая диверсификация между модулями ссылок

Общая цель системы сталкивается с проблемой сортировки. Во-первых, она разделена на несколько модулей, таких как отзыв, грубая сортировка и точная сортировка. Затем для общей проблемы сортировки оптимизация согласованности целей ссылок стала очевидной тенденцией эволюции. В то время как припоминание->грубая-аранжировка->точная аранжировка имеют ту же цель и достигают очевидных результатов, существует эффект Мэтью, вызванный чрезмерной однородностью и синергетическим резонансом нескольких модулей. Возьмем в качестве примера отзыв. Должны ли эту проблему решать другие дорожные модули, такие как изучение отзыва дорог?

В более общем смысле, сильная взаимодополняемость между несколькими отзывами может предоставить лучший кандидатный надмножество ниже по течению.Оптимизация каждого отзыва для потери разнообразия является одним из будущих направлений исследований. При динамическом изменении отношений между модулями существует диалектическая связь между согласованностью и различием в целевом дизайне рекламной системы.

г. Размытие границ рекомендаций по поиску

С точки зрения рекламы практика между поисковой рекламой и рекомендуемой рекламой внутри команды демонстрирует характеристики постепенного стирания границ. Традиционные поисковые объявления фокусируются на четком понимании намерения Query, а затем на адаптации контента. Постепенно характеристика, связанная с Запросом, не может полностью удовлетворить уточнение намерения пользователя, и проблема поиска постепенно превращается в задачу персонализированного сопоставления в условиях ограничения Запроса. Техническим явлением, вызванным фаззификацией границ, является использование глобальных данных, а всестороннее глубокое обучение между поиском и рекомендацией является ключом к достижению результатов.

е. Неконтролируемое обучение модели

Как показано на рисунке 11, во всей рекламной системе постоянно создается петля обратной связи между взаимодействием с пользователем, данными и моделями.В этом процессе будет возникать проблема усиления цикла отклонения.Например, данные, генерирующие отклонение будут введены в модель и повлияют на отображение.Возврат данных к модели формирует дальнейшие индуктивные смещения.

Традиционный метод моделирования заключается в упрощении всей динамической системы до контролируемой задачи для прогнозного моделирования.Набор оптимизации является лишь подмножеством онлайн-набора, и ограничение эффекта становится все более и более очевидным с итерацией. В будущем все еще остается большое пространство для надмножеств-кандидатов, которые не могут быть адекватно смоделированы моделями с учителем. В реальной динамической эволюции рекламной системы, будь то определение новых целей, оптимизация модели или методы оценки AB Test, есть большой потенциал для исследования.

Для получения подробной информации об оптимизации проблемы устранения смещения, пожалуйста, обратитесь к команде по обмену технологиями чемпиона KDD Cup 2020,KDD Cup 2020 Чемпионат по борьбе с предвзятостью Техническое решение и практика в Meituan[13].

图11 广告系统中的反馈环路,偏差积累循环

об авторе

Hu Ke, Jianqiang, Zhang Bo, Qi Yi, Qing Tao, Qu Tan, Cheng Jia, Lei Jun и другие — все из технического отдела Meituan Advertising Platform.

использованная литература

  • [1] Friedman J H . Greedy Function Approximation: A Gradient Boosting Machine[J]. Annals of Statistics, 2001, 29(5):1189-1232.
  • [2] Rendle S. Factorization machines[C]//2010 IEEE International conference on data mining. IEEE, 2010: 995-1000.
  • [3] HT Cheng, et al. Wide & Deep Learning for Recommender Systems, 2016
  • [4] Чжоу, Гуоруй и др. «Сеть глубокого интереса для прогнозирования рейтинга кликов», Материалы 24-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных, 2018 г.
  • [5] Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts. ACM, 2018.
  • [6] Wen, Ling, Chua. A closer look at strategies for memorization.[J]. Clavier Companion, 2014, 6(6):50-52.
  • [7] Huang J, Hu K, Tang Q, et al. Deep Position-wise Interaction Network for CTR Prediction[J]. arXiv preprint arXiv:2106.05482, 2021.
  • [8] Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction
  • [9] Qi, Yi, et al. "Trilateral Spatiotemporal Attention Network for User Behavior Modeling in Location-based Search", CIKM 2021.
  • [10] Overcoming catastrophic forgetting in neural networks[J]. Proceedings of the National Academy of Sciences of the United States of America, 2017.
  • [11] M. Zinkevich. Online convex programming and generalized infinitesimal gradient ascent. In ICML, 2003.
  • [12] Optimized Cost per Click in Taobao Display Advertising[C]// the 23rd ACM SIGKDD International Conference. ACM, 2017.
  • [13] Специальности.Meituan.com/2020/08/20/…

Предложения о работе

Основываясь на рекламных сценариях, команда рекламных алгоритмов рекламной платформы Meituan Daodian исследует технологическое развитие передовых технологий, таких как глубокое обучение, обучение с подкреплением, искусственный интеллект, большие данные, граф знаний, НЛП и компьютерное зрение, а также исследует ценность электронная коммерция местных жизненных услуг. К основным направлениям работы относятся:

  • триггерная стратегия: Распознавание намерений пользователей, понимание рекламных бизнес-данных, переписывание запросов, глубокое сопоставление, корреляционное моделирование.
  • Оценка качества: Моделирование показателей качества рекламы. Рейтинг кликов, коэффициент конверсии, цена за единицу товара и предполагаемый объем транзакций.
  • конструкция механизма: механизм сортировки объявлений, механизм торгов, предложения по ставкам, оценка трафика, распределение бюджета.
  • Креативная оптимизация: Интеллектуальный креативный дизайн. Оптимизация отображаемых идей, таких как рекламные изображения, текст, групповые заказы и информация о скидках.

профессиональные требования

  • Более трех лет соответствующего опыта работы, по крайней мере один аспект прикладного опыта в оценке CTR/CVR, НЛП, понимании изображений и разработке механизмов.
  • Знаком с часто используемыми моделями машинного обучения, глубокого обучения и обучения с подкреплением.
  • Отличные навыки логического мышления, увлечен решением сложных задач, чувствителен к данным, хорош в анализе/решении проблем.
  • Степень магистра или выше по специальностям, связанным с компьютером и математикой.

Предпочтительны следующие условия:

  • Иметь соответствующий бизнес-опыт в рекламе/поиске/рекомендации.
  • Опыт работы с крупномасштабным машинным обучением.

Заинтересованные студенты могут отправить свои резюме по адресу:chengxiuying@meituan.com(Пожалуйста, укажите в теме письма: Группа алгоритмов Meituan Guangping).

Прочтите другие подборки технических статей от технической команды Meituan

внешний интерфейс | алгоритм | задняя часть | данные | Безопасность | Эксплуатация и техническое обслуживание | iOS | Android | контрольная работа

|Отвечая на такие ключевые слова, как [акции 2020 г.], [акции 2019 г.], [акции 2018 г.] и [акции 2017 г.] в диалоговом окне строки меню общедоступной учетной записи, вы можете просмотреть коллекцию технических статей, подготовленных технической командой Meituan за эти годы. .

| Эта статья подготовлена ​​технической командой Meituan, авторские права принадлежат Meituan. Добро пожаловать на перепечатку или использование содержимого этой статьи в некоммерческих целях, таких как обмен и общение, пожалуйста, укажите «Содержимое воспроизводится технической командой Meituan». Эта статья не может быть воспроизведена или использована в коммерческих целях без разрешения. Для любой коммерческой деятельности, пожалуйста, отправьте электронное письмо по адресу tech@meituan.comПодать заявку на авторизацию.