Применение машинного обучения в рекламных сценариях

машинное обучение
Применение машинного обучения в рекламных сценариях

Эта статья подготовлена ​​технической командой OPPO Internet.Если вам необходимо перепечатать, пожалуйста, укажите источник и автора. Добро пожаловать в наш публичный аккаунт: OPPO_tech

Пресса: в этой статье в основном представлены сценарии применения машинного обучения в рекламных сценариях и различные требования к алгоритмам в разных сценариях.Его можно использовать в качестве вводной статьи для понимания роли алгоритмов в рекламе.

Во всем рекламном процессе данные играют жизненно важную роль, но конечная ценность данных максимальна, и ядро ​​по-прежнему зависит от роли алгоритмов в каждом ключевом процессе.

Давайте сначала посмотрим, что машинное обучение может сделать во всем рекламном процессе, а затем поговорим о том, что нам нужно изучить и понять в последующей логике планирования.

Сортировка объявлений

В архитектуре рекламных технологий очень важной частью является упорядочение рекламы. Поэтому, когда речь заходит о применении алгоритмов в рекламе, первое, что приходит на ум, — добиться оптимального ранжирования рекламных объявлений за счет машинного обучения.

Логика сортировки объявлений включает в себя несколько факторов: ставки, контекстное соответствие и оценки CTR. Это и есть проблема оптимальной сортировки многоэлементных комбинаций, а оценка CTR — основная проблема, которую необходимо решать в рекламной сфере.

Потому что во многих рекламных системах контекстуальное понимание может быть не достигнуто, а логика торгов может быть сделана немного грубой, но для оценки CTR это высший приоритет и первая проблема, которую нужно решить. Оценка CTR — это, по сути, оценочный расчет вероятности клика для каждого пула кандидатов на рекламу для пользователей-кандидатов на экспозицию. Так что это очень типичная проблема частичной регрессии.

контекстуальное понимание

Продолжая вышеупомянутую тему, контекстуальное понимание или контекстуальное сопоставление. Проще говоря, это проблема расчета степени соответствия факторов внешней среды и факторов рекламы, или расчета релевантности. Конечно, сопоставление степени — это только один из способов решить проблему понимания контекста, иначе такая модель машинного обучения может решить эту проблему.

На самом деле есть и другие пути ее решения, например, когда выборка набрана достаточно, не просто посчитать релевантность контента, но и подумать, исходя из идеи рекомендательной системы, что есть большое количество данных о рекламной среде и рекламной экспозиции, данных CTR пользователей в этой комбинации. Разве это не очень типичный сценарий ассоциативного анализа? Контекстная среда и реклама анализируются с помощью исторической информации, а не на основе анализа корреляции контента.

С точки зрения цели, в конечном итоге ожидается, что пользователи будут нажимать на рекламу, поэтому, будь то анализ ассоциаций или анализ корреляции, это способ.

похожее расширение толпы

Расширение толпы — типичный сценарий спроса в рекламном поле, а если говорить более прямо, что делать, когда целевых групп пользователей не так много? Дайте мне прогноз и разверните его.

Следовательно, Lookalike по существу получает основные пользователи (так называемые пользователи Core являются проверенными высокими конверсионными людьми), а затем рассчитывает подобные пользователи (не строго похожие в контентных целях), так что это достигнуто цели расширения.

Первоначальные пользователи, которые обычно расширяются, представляют собой группу людей, на которую нацелен круг пользователей, но, очевидно, существует разрыв между целевой группой и фактическим уровнем воздействия спроса. Есть и более распространенный сценарий расширения, то есть рекламодатели импортируют собственные накопленные высококонверсионные основные группы, что является наиболее точным таргетингом, а затем за поиск таких же людей отвечает платформа.

Возвращаясь к машинному обучению, вы можете думать об этом как о сценарии, похожем на пользовательские вычисления, бинарное суждение, вычисление вероятности, самое простое, и вы можете использовать LR для удовлетворения своих потребностей. Но это не так просто, потому что много раз вы обнаружите, что обучающие выборки могут состоять из миллионов или даже десятков миллионов наборов данных, и тогда, если измерения случайно составляют сотни тысяч измерений, миллионы измерений или даже десятки уровень миллионов, то у вас будет больше проблем, которые нужно решить.

Таргетинг по тегам

Мы знаем, что таргетинг — это этап отзыва толпы в рекламной системе, начиная от основного мужского и женского пола и заканчивая более широкими деловыми интересами, например, хотите ли вы похудеть, хотите ли вы получить кредит и т. д. Самая культовая форма это тег пользователя.

Каждая развитая рекламная платформа имеет полную и относительно точную систему маркировки, и пользователи в каждой системе могут более или менее маркировать несколько этикеток. Поэтому всегда есть подходящая рекламная сцена, подходящая для вынесения соответствующих рекомендаций.

Суть рекламы — трафик и распространение данных. Это слишком прямолинейно, но в этом суть ультимативного навешивания ярлыков на разные группы людей.

Изготовление этикетки простое и легкое, а сказать сложно. Чтобы привести простой пример, самый простой тег пола, если есть сцена для получения идентификационного номера, это, естественно, очень просто, но если нет, то это предположение? Поэтому вот типичный сценарий бинарной классификации (там тоже три классификации, типа Weibo, помимо мужских и женских, есть аккаунты типа институциональных атрибутов).

Кроме того, есть сотни других тегов, на разных уровнях, в различных подполях, и некоторые простые теги могут быть помечены правилами поведения. Суждения выносятся на основе правил поведения, и пока правила разумны, можно ожидать их точности. Однако, с одной стороны, количество эксплицитных поведений невелико, что не может удовлетворить потребности масштабного воздействия, а с другой стороны, слишком плоха способность к припоминанию, которая в профессиональном термине называется способностью к обобщению. машинное обучение.

Следовательно, с точки зрения машинного обучения, это снова типичный сценарий дискриминационной модели, и это сценарий со многими классификациями. Конечно, вы также можете преобразовать его в двоичную классификацию, и для каждой метки есть ответ ДА ​​или НЕТ.

Конечно, при фактической обработке большинство из них может только вычислить значение вероятности, а затем произвести дальнейшие расчеты и суждения. Судя по поведению пользователя, обязательно встретится большой объем текста, и обработка естественного языка, естественно, незаменима.

Анализ аномалий

Так называемый аномальный анализ должен относиться к категории предвзятого списывания. Например, что, если крупная машина нажимает на рекламу и вызывает фальшивый объем, даже если это не машина, всегда найдутся люди, которым нравится нажимать на рекламу, чтобы играть, и еще более экстремальным является тип рекламные объявления, которые связаны со сбором информации или второсортной электронной коммерцией.

(Примечание: класс электронной коммерции относится к широко известным Taobao/Jingdong/Tmall и т. д., строго определенным, относится к электронной коммерции в форме продвижения магазина онлайн-платежей, с онлайн-платежами, типичной структурой торгового центра, онлайн- полочные продажи. Ядром второго типа электронной коммерции является рекламная форма оплаты наложенным платежом. Обычно в строгом смысле нет торгового центра или полки. Типичный способ - это логика доступа к одному продукту, онлайн-заказа и получения. и оплата.)

Это нормально заполнить пустой номер, и это нормально сделать телефонный звонок и сказать, что вы не в себе Во втором типе электронной коммерции адрес - это номер дома, а имя "Джей Чоу". ". Стоит ли медлить с отправкой? , В случае отказа вернуть почтовые расходы бесполезны.

Рекламодатель очень обеспокоен.Каждый клик будет вычтен.Каждый отклоненный заказ – это не только пустая трата энергии на доставку, но и, что более важно, затраты на возврат почтовых отправлений.Это малый бизнес, и он не может выдержать подбрасывания.

Следовательно, второй тип электронной коммерции должен контролировать основной уровень грязных заказов (так называемый грязный заказ — это такой заказ, адрес которого не может быть найден, и все виды отклоненных заказов), а также слой CPC, большой количество злонамеренных недействительных кликов невозможно. Эти нагрузки в конечном итоге будут реализованы на платформе, и платформа должна решить проблему такого типа.

Различайте тех пользователей, у которых есть злонамеренное рекламное поведение (хорошая сделка с историческим пятном), а также тех, у кого есть потенциал для этого.

С точки зрения машинного обучения и алгоритмов это типичный сценарий классификации, но на самом деле это не типичный сценарий классификации. Знаете, всегда есть несколько плохих парней, если на платформе есть плохие парни, то и играть на платформе незачем.

Это работа «найти иголку в стоге сена», то есть из десятков миллионов, а то и сотен миллионов пользователей выудить несколько сотен тысяч, а самое большее миллионы «возможных плохих парней». Это типичная сцена с несбалансированными положительными и отрицательными образцами, что является табу в сцене классификации и одной из самых сложных для решения.