Обучение с подкреплением в практике «угадай, что тебе нравится» в Meituan

искусственный интеллект TensorFlow глубокое обучение алгоритм

1 Обзор

"Угадайте, что вам это нравится" – это самая популярная рекомендуемая будка Meituan. Она расположена внизу главной страницы. Форма продукта представляет собой информационный поток. Она берет на себя ответственность помочь пользователям завершить преобразование намерений, выявить интересы и отвлечь трафик на различные деловые стороны Meituan. После многих лет итераций текущая модель ранжирования базовой стратегии «угадай, что вам нравится» — это ведущая в отрасли модель Wide&Deep с потоковыми обновлениями.[1]. Учитывая, что в модели Point-Wise отсутствует описание корреляции между элементами набора кандидатов, а опыт работы с продуктом также имеет проблему недостаточного учета намерений пользователя, начиная с модели и функций, и более глубокого понимания времени, существуют по-прежнему рекомендуется опыт и эффекты. Возможности для улучшения. В последние годы обучение с подкреплением достигло замечательных результатов в области игр и управления.Мы пытаемся использовать обучение с подкреплением для оптимизации вышеуказанных проблем.Цель оптимизации состоит в том, чтобы добиться долгосрочных преимуществ в многораундовом взаимодействии между рекомендательной системой и пользователь.

В прошлой работе мы начали с базового Q-Learning и предприняли некоторые технические попытки на пути от низкоразмерных к многомерным состояниям, от дискретных к непрерывным действиям и от автономных к методам обновления в реальном времени. В этой статье будут представлены алгоритм и инженерный опыт стенда Meituan «Угадай, что вам нравится», в котором применяется обучение с подкреплением. В разделе 2 представлено моделирование MDP на основе многоэтапного взаимодействия, которое тесно связано с бизнес-сценариями.Мы проделали большую работу в части моделирования намерений пользователей, что изначально заложило основу для обучения с подкреплением для достижения положительных результатов. Раздел 3 знакомит с оптимизацией структуры сети.Для проблем нестабильного обучения с подкреплением, трудностей с конвергенцией, низкой эффективности обучения и требований к массивным обучающим данным мы улучшили модель DDPG в сочетании с онлайн-сценой онлайн-A/B. Протестируйте и добились стабильных положительных результатов. Раздел 4 знакомит с работой облегченной среды DRL в реальном времени, в которой сделаны некоторые оптимизации для решения проблем, связанных с недостаточной поддержкой TensorFlow для онлайн-обучения, и обновлена ​​модель обслуживания TF.

Рис. 1. Сцена «Думаю, вам нравится» на домашней странице Meituan.

2 Моделирование MDP

На стенде «Угадай, что вам нравится» пользователи могут взаимодействовать с рекомендательной системой в течение нескольких раундов, переворачивая страницы. Во время этого процесса рекомендательная система может воспринимать поведение пользователя в реальном времени, чтобы лучше понять пользователя и предоставить более качественные услуги. в следующем взаимодействии опыт. Распределение перелистываний страниц пользователей типа «угадай, что вам нравится» представляет собой распределение с длинным хвостом, и на рисунке 2 мы логарифмируем количество пользователей. Можно видеть, что в рекомендательных сценариях естественным образом существует несколько раундов взаимодействия.

图2 “猜你喜欢”展位用户翻页情况统计

В таких многораундовых взаимодействиях мы рассматриваем рекомендательную систему как агента, а пользователя как среду Процесс многоэтапного взаимодействия между рекомендательной системой и пользователем можно смоделировать как MDP:

  • Состояние: наблюдение агента за Окружающей средой, то есть намерение пользователя и сцена, в которой он находится.
  • Действие: скорректируйте список рекомендаций с помощью детализации List-Wise и рассмотрите влияние долгосрочных преимуществ на текущие решения.
  • Вознаграждение: назначайте агенту соответствующие вознаграждения в соответствии с отзывами пользователей и несите прямую ответственность за достижение бизнес-целей.
  • P(s,a): вероятность перехода агента в состояние a в текущем состоянии s.

图3 推荐系统与用户交互示意图

Наша цель оптимизации — максимизировать выигрыш агента за несколько раундов взаимодействия:

В частности, мы моделируем MDP в процессе взаимодействия следующим образом:

2.1 Моделирование состояния

Состояние исходит из наблюдения агента за Окружающей средой.В рекомендуемом сценарии, то есть намерении пользователя и сцене, в которой он находится, мы разрабатываем сетевую структуру, показанную на рисунке 4, для извлечения выражения состояния. Сеть в основном разделена на две части: в качестве входных данных используется встраивание элементов последовательности поведения пользователя в реальном времени, а одномерная CNN используется для изучения выражения намерения пользователя в реальном времени; сценарий рекомендации по-прежнему в значительной степени опирается на традиционную разработку функций, поэтому мы используем функции Dense и Embedding, чтобы выразить то, что хотят пользователи, время, место, сцена и изучение привычек поведения пользователей в течение более длительного периода времени.

图4 状态建模网络结构

Здесь мы представляем бинарную последовательность, которая использует функции встраивания для выражения поведения пользователя и анализа привычек.[2]метод. Мы абстрагируем последовательность поведения пользователя в различных измерениях с помощью разработки признаков и создаем ряд дискретных N-мерных кодов, указывающих, что каждый бит имеет N состояний. Например, подсчитайте, есть ли у пользователя поведение кликов в разных временных окнах 1H/6H/1D/3D/1W, и закодируйте их в 5-значные двоичные числа, а затем используйте эти числа в качестве дискретных функций для изучения встроенных выражений как типа функции. способ обработки. Кроме того, есть также сведения о том, изменилась ли категория кликов, промежуток между кликами и т. Д., Которые дали очень хорошие результаты в модели сортировки и моделировании состояния обучения с подкреплением сцены «угадай, что тебе нравится». Причина в том, что в случае очень богатых поведенческих данных модель последовательности ограничена сложностью и эффективностью, и ее недостаточно для полного использования этой информации, и Binary Sequence может служить хорошим дополнением.

Рис. 5. Сравнение модели последовательности и эффекта разработки признаков

Левая сторона рисунка 5 представляет собой часть модели последовательности, в которой используются различные методы объединения и сравнение автономного эффекта одномерной CNN, а правая часть представляет собой часть функций плотного и встраивания, добавляющих пользователю высокую производительность. частотное поведение, расстояние, временной интервал поведения и время поведения, перенос намерений и другие функции, а также автономный эффект добавления всех существенных положительных функций.

2.2 Дизайн действий

Модель ранжирования, используемая в настоящее время в «Guess You Like It», состоит из двух изоморфных моделей Wide и Deep, которые обучаются с кликами и платежами в качестве целей соответственно и, наконец, объединяют результаты двух моделей. Метод слияния показан на следующем рисунке:

图6 排序模型示意图

Физический смысл гиперпараметра θ заключается в настройке компромисса модели клика и заказа в полном наборе данных, который определяется всесторонним учетом AUC двух задач клика и заказа, и персонализированный фактор отсутствует. Мы принимаем это как точку входа и используем действие агента для настройки гиперпараметров слияния, чтобы:

a - это действие, сгенерированное стратегией агента, которое имеет два преимущества: во-первых, мы знаем, что лучшее решение - это a = 1. В этом случае стратегия обучения с подкреплением и стратегия базового ранжирования согласуются, потому что обучение с подкреплением является константой В процессе проб и ошибок мы можем легко инициализировать стратегию агента как a=1, чтобы не повредить онлайн-эффект на ранней стадии эксперимента. Во-вторых, это позволяет нам обрезать действие в соответствии с физическим значением, тем самым смягчая фактическое влияние нестабильности процесса обновления обучения с подкреплением.

2.3 Формирование вознаграждения

Основными показателями оптимизации стенда «Угадай, что вам нравится» являются количество кликов и количество заказов. Знаменатель в основном одинаков в каждой экспериментальной корзине. Таким образом, бизнес-целью можно считать оптимизацию количества кликов и заказов. попробуйте сделать награду пластиковой формы такой:

По сравнению с моделью гранулярного ранжирования Point Wise, которая обращает внимание на эффективность конверсии каждого элемента, цель обучения с подкреплением состоит в том, чтобы максимизировать доход от вознаграждения в нескольких раундах взаимодействия и нести прямую ответственность за достижение бизнес-целей.

图7 加入惩罚项前后的相对效果变化

В ходе эксперимента мы обнаружили, что стратегия обучения с подкреплением может дать хороший эффект на начальном этапе и добиться определенного улучшения показателей кликов и заказов, но в дальнейшем оно будет постепенно снижаться, как показано в первой половине. на рисунке 7. При послойном анализе эффективности конверсии мы обнаружили, что скорость воздействия устройства и частота кликов по UV-измерению при группировании обучения с подкреплением снизились, в то время как время пребывания пользователя и глубина просмотра неуклонно увеличивались, что показывает, что агент научился делать пользователи и система рекомендаций больше Стратегия взаимодействия, чтобы получить больше возможностей для воздействия и конверсии, но эта стратегия вредна для опыта некоторых пользователей с сильными намерениями заказа, потому что стоимость конверсии намерений этих пользователей стала выше, поэтому ожидания от киосков стали ниже. В ответ на эту ситуацию мы добавляем два условия штрафа в формирование вознаграждения:

  1. Наказать промежуточную интерактивную страницу (penalty1), которая не имеет никакого поведения конверсии (клика/заказа), чтобы модель могла изучить кратчайший путь конверсии по намерению пользователя;
  2. Наказывать страницы, на которых не происходит конверсия и пользователь уходит (штраф2), тем самым защищая пользовательский опыт.

Пересмотренные награды:

Так как пользовательский опыт непрерывен во времени, влияние UV-размера имеет определенное отставание в отчете.Примерно через неделю рейтинг кликов и 10 000 заказов вернулись к положительному уровню.В то же время пользователь остается время и глубина просмотра были дополнительно улучшены, что указывает на то, что агент действительно научился. Пришло время получать больше конверсий от нескольких раундов взаимодействий, не нанося вреда пользователям, как показано во второй половине рисунка 7.

В этом разделе мы представляем соответствующую работу по моделированию MDP. MDP тесно связан с бизнес-сценариями, и опыт не так просто передать. Что касается сцены в этой статье, мы тратим больше энергии на особенности выражения состояния.Эта часть работы позволяет обучению с подкреплением получить возможность достигать положительных результатов в собственных целях, поэтому эта часть представлена ​​подробно . Дизайн действий — это сценарий слияния многоцелевых моделей, который распространен в отрасли и не подходит для обучения с учителем, а также может отражать способность обучения с подкреплением. Формирование вознаграждения должно сократить разрыв между целями обучения с подкреплением и бизнес-целями, что требует некоторой работы над анализом данных и пониманием бизнеса. После выполнения вышеуказанной работы обучение с подкреплением добилось некоторого положительного влияния на собственные цели и бизнес-показатели, но оно недостаточно стабильно. Кроме того, поскольку итерация стратегии представляет собой процесс онлайн-обучения, требуется неделя обучения в реальном времени после запуска эксперимента, чтобы сходиться и наблюдать за эффектом, что также серьезно влияет на эффективность нашей итерации. Мы внесли некоторые улучшения в модель для этих случаев.

3 Улучшенная модель DDPG

Что касается моделей, мы попробовали Q-Learning и DQN в процессе постоянного улучшения моделирования MDP.[3]и ДДПГ[4]Модель также сталкивается с общими проблемами обучения с подкреплением: обновление недостаточно стабильно, процесс обучения склонен к несходимости, а эффективность обучения низкая (здесь имеется в виду низкая эффективность использования выборки, поэтому требуются массивные выборки). . Конкретно в рекомендательном сценарии, поскольку выборки измерения List-Wise намного меньше, чем выборки Point-Wise, а в качестве обучающих выборок требуются реальные действия и обратная связь, мы можем использовать только небольшой трафик экспериментальной группы для обучения в реальном времени. . Таким образом, количество обучающих данных относительно невелико, всего сотни тысяч в день, а эффективность итераций низкая. С этой целью мы внесли некоторые улучшения в структуру сети, включая введение определенных функций Advantage, распределение веса состояния, оптимизацию стратегии On-Policy в сочетании с онлайн-платформой A/B Test, чтобы выполнить более десяти раз улучшение данных и поддержка перед обучением. Затем мы используем DDPG в качестве краеугольного камня для представления работы по улучшению модели.

图8 DDPG模型

Как показано на рисунке 8, базовая DDPG представляет собой архитектуру «актор-критик». Используйте сеть Актеров онлайн, чтобы предсказать наилучшее действие в текущем состоянии, и добавьте случайный шум к предсказанному действию с помощью процесса Орнштейна-Уленбека, чтобы получить ', чтобы достичь цели изучения близкой к оптимальной стратегии. Действуйте на линии и получайте соответствующие выгоды от пользователя (окружающей среды). В процессе обучения Critic учится оценивать доход, полученный от действия a в текущем состоянии s, используя MSE в качестве функции потерь:

Выведите параметры:

Актер использует градиент политики обратного распространения Critic, чтобы максимизировать оценку Q, используя градиентное восхождение для постоянной оптимизации политики:

В формуле градиента детерминированной политики θ является параметром политики, и агент будет использовать политику µθ(s) для генерации действия a в состоянии s, а ρµ (экспоненциальная зависимость) представляет вероятность перехода состояния при этой политике. В течение всего процесса обучения нам не нужно фактически оценивать значение политики, нам просто нужно максимизировать оценку Q на основе градиента политики, возвращаемого критиком. Критик постоянно оптимизирует свою оценку Q(s, a), а Актер решает лучшую функцию политики посредством градиента суждения Критика. Это продолжается до тех пор, пока Актер не сходится к оптимальной политике, а Критик не сходится к наиболее точной оценке Q (s, a).

Следующие работы основаны на этих улучшениях представленной нами модели DDPG.

3.1 Функция преимущества

Учитесь у DDQN[5]Идея функции преимущества Преимущество, мы разделяем Q(s, a), оцененную критиком, на две части: V(s), относящуюся только к состоянию, и функцию преимущества A(s, a), относящуюся к обоим состояния и действия Q(s,a) = V(s) + A(s,a), что может облегчить проблему переоценки Q критиками. В частности, в рекомендательной среде наша стратегия регулирует только параметры слияния модели ранжирования, а преимущества в основном определяются состоянием.

图9 实验组与基线的Q值对比

Как показано на рисунке 9, видно, что отношение среднего значения V(s) и A(s, a) составляет примерно 97:3 в реальном эксперименте, что может подтвердить наше суждение. В реальном процессе обучения мы сначала обучаем V(s) в соответствии с состоянием и доходом, а затем используем остаток Q(s,a)-V(s) для обучения A(s,a), что значительно улучшает стабильность обучения. , и мы можем интуитивно наблюдать, лучше ли текущая стратегия, чем базовая линия через невязку. На рисунке 8 A(s, a) стабильно больше 0, и можно считать, что обучение с подкреплением достигло стабильных положительных результатов в достижении собственных целей.

3.2 Распределение веса государства

В соответствии с A3C[6]Вдохновившись сетью, мы заметили, что и Актер, и Критик в сети DDPG имеют выражение состояния. В нашей сцене большинство параметров сосредоточено в части состояния. В порядке 100 000 других параметров всего тысячи. Поэтому мы пытаемся разделить веса части State, что позволяет снизить параметры обучения примерно вдвое.

图10 使用advantage函数并做state权值共享

Улучшенная структура сети показана на рисунке 10. Для этой сетевой структуры мы заметили, что ветки с V(s) не связаны с действиями, а это значит, что мы можем узнать ожидание Q при этом Состоянии без конкретных Действий, что позволяет нам использовать базовую стратегию в автономном режиме на десятках миллионы уровней количество данных, чтобы сделатьпредварительная подготовка, базовый и экспериментальный трафик также используются для онлайн-обновлений в реальном времени, чтобы улучшить эффект обучения и стабильность. А поскольку этот путь обновления включает в себя все параметры состояния, большинство параметров модели можно полностью предварительно обучить, и только параметры, связанные с действием, должны полагаться на часть онлайн-обучения, что значительно повышает эффективность нашей экспериментальной итерации. Получается, что нужно подождать неделю тренировок после выхода в интернет, чтобы наблюдать эффект.После улучшения можно начинать наблюдать эффект уже на следующий день после выхода в интернет.

3.3 On-policy

в формате А2С[7]В документе авторы обсуждают свои выводы: синхронная реализация A2C работает лучше, чем асинхронная реализация A3C. Мы не видели никаких доказательств того, что асинхронно введенный шум может обеспечить какой-либо прирост производительности, поэтому для повышения эффективности обучения мы используем этот подход, используя тот же набор параметров для оценки Q_{t+1} и обновления Q_t, тем самым уменьшая снова параметры модели.

3.4 Расширение до нескольких наборов параллельных стратегий

Учитывая ситуацию, когда несколько групп экспериментов по обучению с подкреплением находятся в сети одновременно, в сочетании с характеристиками среды A/B-тестирования, мы расширяем описанную выше сетевую структуру на ситуацию с несколькими агентами.

图11 支持多组线上实验DDPG模型

Как показано на рисунке 11, несколько групп онлайн-экспериментов используют выражение State и оценку V(s). Каждая стратегия обучает свою собственную сеть A(s,a) и может быстро сойтись. С одной стороны, такая структура делает процесс обучения более стабилен, с другой стороны, он дает возможность стратегии обучения с подкреплением быть полным.

图12 点击率分天实验效果

В работе по преобразованию DDPG мы используем функцию Advantage, чтобы получить более стабильный процесс обучения и градиент политики. Разделение веса состояния и методы On-Policy уменьшают параметры нашей модели на 75%. Комбинация функции Advantage и разделения весов состояний позволяет нам использовать выборки базовой стратегии для улучшения данных, так что ежедневные обучающие выборки могут быть расширены со 100 000 до 1 млн. В то же время достаточная предварительная подготовка гарантирует, что стратегия может быстро сходиться после выхода в онлайн. После этих усилий онлайн-эксперимент по обучению с подкреплением добился стабильного положительного эффекта.При условии того же эффекта скорости заказа еженедельная частота кликов по эффекту увеличилась на 0,5%, среднее время пребывания увеличилось на 0,3% и глубина просмотра увеличилась на 0,3%. Основное различие между модифицированной моделью и A2C заключается в том, что мы по-прежнему используем детерминированные градиенты политики, что позволяет нам оценивать распределение на одно действие меньше, особый случай, когда стохастическая дисперсия политики падает до 0. Рисунок 12 показывает, что эффект интенсивной практики стабилен.Поскольку модель ранжирования «угадай, что тебе нравится» уже является ведущей в отрасли моделью потоковой DNN, мы считаем, что это улучшение является значительным.

4 Облегченная система ДХО реального времени на базе TF

Обучение с подкреплением обычно изучается методом проб и ошибок (проб и ошибок), а улучшение политики в режиме реального времени и получение обратной связи может значительно повысить эффективность обучения, особенно в непрерывных политиках. Это легко понять в игровых сценариях, и, соответственно, мы также встроили систему глубокого обучения в режиме реального времени в систему рекомендаций, чтобы сделать обновления политик более эффективными. Для поддержки обновленных DRL-моделей в режиме реального времени и эффективных экспериментов мы внесли некоторые улучшения и оптимизации на основе TensorFlow и TF Serving для нужд онлайн-обучения, а также разработали и внедрили набор функционально настроенных обновленных DRL-фреймворков в реальном времени. , В процессе экспериментальной итерации DQN, DDQN, DDPG, A3C, A2C, PPO осаждаются в[8]и т.п. модель. Архитектура системы показана на рисунке 13:

图13 实时更新的强化学习框架

Учебная часть рабочего процесса выглядит следующим образом:

  1. Online Joiner собирает функции и отзывы пользователей из Kafka в режиме реального времени, объединяет их в образцы Label-Feature с точечной детализацией и выводит образцы в Kafka и HDFS, поддерживая онлайн- и офлайн-обновления соответственно.
  2. Сборщик опыта собирает указанные выше образцы, объединяет их с детализацией запроса List-Wise и объединяет их в [] списков MC Episodes в соответствии с временными метками запроса, а затем разбивает их на , вывод образцов в формате MC или TD поддерживает обучение RL.
  3. Trainer выполняет предварительную обработку входных функций и использует TensorFlow для обучения модели DRL.
  4. Контроллер версий отвечает за планирование задач для обеспечения эффективности и качества и отправляет модели, которые прошли обучение и показатели которых соответствуют ожиданиям, в TF Serving и Tair.Эта часть требует только параметров, связанных с Актером. Таир, как ПС, восполняющий недостатки ТФ в онлайн-обучении, будет подробно представлен позже.
  5. Монитор отслеживает и записывает объем данных и показатели обучения в течение всего тренировочного процесса, а также выдает онлайн-оповещения о ситуациях, не соответствующих ожиданиям.
  6. Прежде чем новая модель будет подключена к сети, она выполнит автономную предварительную подготовку и использует данные базовой стратегии для изучения выражения состояния и чистой стоимости. После выхода в онлайн параметры Актера, Преимущество и Ценность будут обновляться одновременно в режиме реального времени.

В части онлайн-прогнозирования агент рекомендательной системы получает параметры предварительной обработки от Tair и передает обработанные функции в TF Serving для дальнейшего распространения, получает действия и вмешивается в соответствии с результатами сортировки, отображаемыми для пользователей.

В ответ на слабую поддержку TensorFlow для онлайн-обучения и низкой эффективности обработки десятков миллионов вложений мы внесли некоторые улучшения:

  • Распределение онлайн-функций будет меняться со временем.Для Dense-функций мы поддерживаем инкрементный алгоритм Z-Score для предварительной обработки функций.
  • Входное измерение функции встраивания также часто меняется, и TF не поддерживает входное измерение переменной длины.По этой причине мы поддерживаем полное сопоставление ID-встраивания, и каждое обучение позволяет модели загружать высокочастотное встраивание в Текущий набор образцов.
  • Встраивание десятков миллионов элементов значительно снизит эффективность обучения и прогнозирования, поэтому мы отображаем эту часть в предварительной обработке и используем сопоставленную матрицу непосредственно в качестве входных данных CNN.
  • Чтобы повысить экспериментальную эффективность разработки признаков, он поддерживает конфигурацию признаков для создания структуры модели.
  • Кроме того, время отклика обслуживания TF внезапно увеличивается в течение одной или двух минут после обновления модели, что приводит к тайм-ауту многих запросов. Есть две причины. Во-первых, загрузка модели обслуживания и запрос совместно используют пул потоков, который заставляет модель переключения блокировать обработку запросов; во-вторых, инициализация графа вычислений ленивая, поэтому первый запрос после новой модели должен дождаться инициализации графа вычислений. Эта проблема больше влияет на сценарий онлайн-обучения, где поддержка онлайн-обучения относительно слаба, когда модель часто обновляется.Для ее решения мы используем метод разделения пула потоков и прогрева инициализации. Для более конкретных решений и эффектов, пожалуйста, обратитесь к другому техническому блогу Meituan.[9].

5 Резюме и перспективы

Обучение с подкреплением является одним из наиболее быстро развивающихся направлений в области глубокого обучения, и его сочетание с рекомендательными системами и моделями ранжирования также имеет большую ценность для изучения. В этой статье представлена ​​реализация обучения с подкреплением в сценарии сортировки Meituan «угадай, что вам нравится», включая моделирование MDP, которое постоянно корректируется в соответствии с бизнес-сценариями, чтобы обучение с подкреплением могло принести определенные положительные результаты; путем улучшения DDPG для улучшения данных, модель может быть улучшена Надежность и экспериментальная эффективность TensorFlow для достижения стабильных положительных результатов, а также структура DRL в реальном времени на основе TensorFlow, которая обеспечивает основу для эффективной параллельной итерации политик.

После периода итеративной оптимизации мы также накопили некоторый опыт в обучении с подкреплением.По сравнению с традиционным обучением с учителем ценность обучения с подкреплением в основном отражается в:

  1. Гибкое формирование вознаграждения может поддерживать моделирование различных бизнес-целей, включая, помимо прочего, рейтинг кликов, коэффициент конверсии, GMV, время ожидания, глубину просмотра и т. д. Он поддерживает многоцелевую интеграцию и напрямую отвечает за достижение бизнес-целей.
  2. Дизайн действий, полный творческого пространства, не требует прямого ярлыка, но генерирует и оценивает стратегию через сеть, которая подходит в качестве дополнения к контролируемому обучению. Это имеет что-то общее с GAN.
  3. Учитывая влияние оптимизации долгосрочной отдачи на текущее принятие решений, сценарии, в которых агент часто взаимодействует с окружающей средой, могут лучше отражать ценность обучения с подкреплением.

В то же время обучение с подкреплением — это ветвь машинного обучения, и здесь по-прежнему применимы многие опыты машинного обучения. Например, данные и признаки определяют верхний предел эффекта, а модели и алгоритмы лишь приближают его. Для обучения с подкреплением пространство признаков в основном включено в моделирование состояния, Мы настоятельно рекомендуем больше попробовать моделирование состояния и доверять модели, чтобы она могла делать выводы на ее основе. В другом примере идея использования большего количества обучающих данных для снижения эмпирического риска и меньшего количества параметров для снижения структурного риска по-прежнему применима к обучению с подкреплением, Поэтому мы считаем, что улучшение DDPG можно распространить на сценарии онлайн-тестирования A / B. различных предприятий. Кроме того, мы также столкнулись с проблемой, что обучение с подкреплением чувствительно к случайности во время обучения.[10], для этой цели мы используем несколько наборов случайных начальных значений для одновременного обучения и выбираем лучший набор параметров для фактического обновления параметров.

В текущем решении действие, которое мы пробовали, заключается в настройке параметров слияния моделей, в основном с учетом того, что это относительно распространенный сценарий в задаче сортировки, и он также подходит для отражения способности обучения с подкреплением, но на самом деле способность возможность вмешательства в результаты сортировки относительно ограничена. В будущем мы изучим количество отзывов для различных категорий, местоположений, ценовых диапазонов и других атрибутов, тесно связанных со сценариями намерений пользователей, и настроим параметры скрытого слоя модели ранжирования. Кроме того, чтобы решить проблему низкой эффективности обучения, мы также попробуем такие методы, как приоритетная выборка для повышения эффективности использования выборки и любопытные сети для повышения эффективности исследования. Друзья, которые заинтересованы в обучении с подкреплением, также могут связаться с нами, чтобы обсудить и изучить применение и развитие обучения с подкреплением в отрасли.

использованная литература

[1] Хенг-Цзе Ченг, Левент Кок, Иеремия Хармсен, Тал Шакед, Тушар Чандра, Хриши Арадхи, Глен Андерсон, Грег Коррадо, Вей Чай, Мустафа Испир, Рохан Анил, Закария Хак, Личан Хонг, Вихан Джайн, Сяобин Лю, и Хемал Шах, Широкое и глубокое обучение для рекомендательных систем, CoRR, 2016. [2] Yan, P., Zhou, X., Duan, Y. Рекомендация по товарам электронной коммерции на основе факторизации с учетом полевых условий. Machine, In: Proceedings of the International ACM Recommender Systems Challenge 2015, 2015. [3] Мних, Владимир, Кавуккуоглу, Корай, Сильвер, Давид, Русу, Андрей А, Венесс, Жоэль, Беллемаре, Марк Г., Грейвс, Алекс, Ридмиллер, Мартин, Фиджеланд, Андреас К., Островски, Георг и др. Человеческий уровень контроль с помощью глубокого обучения с подкреплением, Nature, 2015. [4] Лилликрап Т., Хант Дж., Притцель А., Хесс Н., Эрез Т., Тасса Ю., Сильвер Д. и Вирстра Д. Непрерывный контроль с глубоким обучением с подкреплением. На международной конференции, 2015 г. по обучающим представлениям, 2016. [5] Ван З., де Фрейтас Н. и Ланктот М. Дуэль сетевых архитектур для глубокого обучения с подкреплением, Технический отчет, 2015 г. [6] Владимир Мних, Адриа Пучдоменек Бадиа, Мехди Мирза, Алекс Грейвс, Тим-оти П. Лилликрап, Тим Харли, Дэвид Сильвер и Корай Кавуккуоглу, Асинхронные методы глубокого обучения с подкреплением, ICML, 2016 [7] Ю. Ву, Э. Мансимов, С. Ляо, Р. Гросс и Дж. Ба. Метод масштабируемой доверительной области для глубокого обучения с подкреплением с использованием аппроксимации с коэффициентом Кронекера, Препринт arXiv arXiv: 1708.05144, 2017. [8] Шульман Дж., Вольский Ф., Дхаривал П., Рэдфорд А., Климов О. Алгоритмы проксимальной оптимизации политик, препринт arXivXiv:1707.06347, 2017. [9] Чжун Да, Хун Цзе, Тинг Вэнь Онлайн-оценка глубокого обучения на основе обслуживания TensorFlow, MT Bolg, 2018 [10] Хендерсон П., Ислам Р., Бахман П., Пино Дж., Прекап Д., Мегер Д. Глубокое обучение с подкреплением имеет значение, arXiv: 1709.06560, 2017.

об авторе

Дуань Цзинь, присоединившийся к Meituan-Dianping в 2015 году, в настоящее время отвечает за внедрение обучения с подкреплением в рекомендуемых сценариях.