Управляемое чтение
Сегодняшние рекомендательные системы можно увидеть повсюду в Интернете.Используете ли вы Douyin, просматриваете ли вы Taobao или смотрите новости, за ними стоит надежная рекомендательная система. Как распространяется контент в аудиоиндустрии? Как повысить эффективность обнаружения пользователем аудиоконтента? Являясь первой интернет-аудио-медиаплатформой в Китае, Dragonfly FM уже 10 лет активно участвует в аудиоиндустрии, и есть некоторые осадки и опыт, которыми я хочу поделиться с вами.
Далее мы представим следующие четыре аспекта
Первая часть сцены: расскажите о том, как сцена домашней страницы Dragonfly шаг за шагом эволюционирует от ручного управления к персонализированным рекомендациям.
Вторая часть алгоритма: какие алгоритмы составлены рекомендациями потока информации Dragonfly и как взаимодействовать друг с другом.
Третья часть архитектуры: общая архитектура системы рекомендаций и то, как модель алгоритма развертывается в сети.
Последняя часть обзора: некоторые мысли о последующей разработке сценариев рекомендаций потока информации стрекозы.
1. Сцена
1.1. Период ручной рекомендации
Распределение трафика ранней домашней страницы Dragonfly отображается в модулях, и каждый модуль может быть настроен с количеством горизонтальных и вертикальных рядов. В настоящее время только содержимое модуля персонализированных рекомендаций генерируется алгоритмом рекомендаций, а остальные модули поддерживаются операцией вручную. Контент в модуле необходимо регулярно заменять операцией, а обновление отображаемого контента полностью зависит от ручного труда, что очень неэффективно.
В целях повышения эффективности оперативного труда мы вводим рекомендации политики.
1.2. Период рекомендации стратегии
Работа периода рекомендаций по стратегии изменилась с ежедневного обновления контента в модуле на привязку библиотеки контента к модулю и выбор подходящей стратегии сортировки. Контент в библиотеке контента динамически генерируется и обновляется в соответствии с классификацией и атрибутами конфигурации, а настройку одного модуля можно выполнить раз и навсегда.
Как сортируются модули? Как выбрать стратегию сортировки контента в модуле, чтобы получить максимальную выгоду? стал новым вызовом.
1.3. Период рекомендации личности
На основе данных обнаружено, что эффективность модуля личностных рекомендаций выше, чем у других рекомендуемых стратегий.Во-первых, мы попытались увеличить количество содержимого в модуле личностных рекомендаций с 3 до 6. После проверки того, что общий эффект от домашней страницы был улучшен, возникла идея объединения нескольких модулей в один информационный поток персонализированной рекомендации.Результаты онлайн-эксперимента AB показывают, что показатели персонализированной рекомендации информации поток выше, чем у нескольких модулей, рекомендации по стратегии. Поток информации идет в один ряд или в два ряда? После эксперимента АВ был окончательно выбран двойной ряд с лучшим эффектом.
В течение периода персонализированных рекомендаций по-прежнему будут действовать требования по поддержке трафика и продвижению для нескольких альбомов, а также будет добавлена система доставки на основе персонализированных рекомендаций. Система доставки также поддерживает создание нескольких объявлений для одного плана доставки с помощью разных заголовков и обложек, а производительность данных между несколькими объявлениями может быть ускорена и расширена до большего количества сценариев. Работа больше не ограничивается выбором контента, но, что более важно, реорганизацией и созданием контента, в полной мере раскрывая ценность операции в воображении и творчестве.
1.4. Резюме
Сцена домашней страницы проходит три этапа: ручная рекомендация, рекомендация по стратегии и персональная рекомендация. Стратегические рекомендации в основном решают проблему производительности труда, а персонализированные рекомендации дополнительно высвобождают рабочую силу, а также приводят к значительному улучшению показателей данных.
2. Алгоритмы
С развитием домашней страницы алгоритм рекомендаций Dragonfly также постоянно совершенствуется и совершенствуется.
2.1 Алгоритм рекомендации
Алгоритм рекомендации примерно выглядит следующим образом: в пуле контента есть сотни тысяч контента, который соответствует рекомендуемым стандартам, слой отзыва выбирает тысячи контента, который может понравиться пользователям, и входит в слой грубого ранжирования, а охват слой отзыва определяет общий рекомендуемый контент. Слой грубого ранжирования выбирает сотни элементов из результатов отзыва и отправляет их на слой точного ранжирования.Слой грубого ранжирования в основном предназначен для уменьшения вычислительной мощности онлайн и уменьшения давления точного ранжирования. Десятки слоев тонкой аранжировки выбираются и передаются слою перестановки, который фокусируется на точности рекомендаций. Наконец, слой переупорядочения переупорядочивает рекомендуемые результаты для пользователей.Этот уровень учитывает точность, а также должен обеспечивать разнообразие.
Каскадная структура проста, разделение труда понятно. Он учитывает охват, производительность, точность и разнообразие.
2.2 Множественный отзыв
Познакомившись с общим процессом рекомендуемого алгоритма, давайте сначала рассмотрим многосторонний отзыв. Многосторонний отзыв в Dragonfly в основном делится на три категории: основанный на содержании, совместная фильтрация и встроенный векторный отзыв. Воспроизведение на основе содержимого включает в себя популярные, атрибутивные и новые стратегии; совместная фильтрация включает в себя пользовательское и элементное воспроизведение; встроенное векторное воспроизведение включает в себя Word2vec и Bert. Объем данных, обрабатываемых в ссылке отзыва, велик, и сложность не должна быть слишком высокой.Дизайн многоканального отзыва может облегчить добавление новых стратегий или алгоритмов. На практике мы обнаружили, что раннее установление и улучшение показателей и отслеживание эффекта каждого припоминания помогут выжить наиболее приспособленным; эффект припоминания не в том, что чем сложнее алгоритм припоминания, тем лучше, и припоминание может быть разным для разных бизнес-характеристики, например, Dragonfly Текущие самые эффективные отзывы исходят от ItemCF и Popular, поскольку алгоритмов отзыва становится все больше и больше, новые отзывы должны отличаться и дополнять существующие отзывы, чтобы иметь ценность. Ссылка отзыва также будет нести миссию построения бизнеса и платформы, такую как холодный запуск пользователей и элементов, поддержка бизнес-потока и т. д. Качество ссылки отзыва напрямую определяет верхний предел последующей ссылки.
2.3 Грубый ряд
Тогда есть грубый взвод.В ранней двигательной системе грубый взвод часто выполнялся с простой стратегией слияния.На практике было обнаружено, что введение алгоритма в грубый взвод стоит. Существует много комбинаций стратегий, а цикл тестирования длинный.Применение модели с двумя башнями не только решает проблему эффективности комбинации многостороннего отзыва, но и позволяет избежать проблемы производительности точной сортировки.
Модель с двумя башнями обладает хорошей масштабируемостью и позволяет свободно добавлять пользовательские сети, а башни пользователя и элемента не связаны друг с другом В то же время вычислительная мощность, необходимая для расчета скалярного произведения, невелика. В Dragonfly, чтобы обеспечить производительность грубо организованных данных рассуждений в реальном времени, генерация пользовательского вектора и вычисление скалярного произведения выполняются в реальном времени. Добавление шероховатых рядов также принесло хорошие результаты с точки зрения показателей данных, среди которых скорость преобразования информационного потока УФ-слушания увеличилась на 3,54%, а время прослушивания на душу населения увеличилось на 5,44%.
2.4. Уточнение
Тогда есть точное ранжирование.Точное ранжирование часто является наиболее важным в системе рекомендаций.Точное ранжирование напрямую отвечает за точность, и относительно легко получить прямую выгоду. Мы вложили относительно большие средства в хорошую греблю, и выгоды, которые мы получили от этого, относительно велики. Доработка Dragonfly прошла три этапа: логистическая регрессия и FM для линейных моделей, XGBoost для древовидных моделей и DeepFM для моделей нейронных сетей.
XGBoost имеет самое продолжительное время итерации, среди которых настройка параметров модели, анализ признаков (включая введение перекрестных признаков и признаков в реальном времени), оптимизация точности данных журнала и сортировка в реальном времени привели к улучшению на 35%. в данных онлайн-прослушивания. После XGBoost мы опробовали множество моделей, включая XGBoost+LR, Wide&Deep и т. д., но все они не дали ожидаемых результатов Попытка изучения DeepFM дала улучшение показателей, связанных с прослушиванием, на 9,3%. DeepFM, естественно, стал главной силой модели точной организации, а также открыл дверь для алгоритма рекомендаций Dragonfly на пути глубокого обучения.
2.5. Перестановка
Последнее — реорганизация.Как и отзыв, реорганизация несет в себе множество бизнес-целей и ожиданий. Здесь мы в основном говорим о разнообразии, С одной стороны, чтобы улучшить разнообразие, мы надеемся разбить информационный кокон рекомендательной системы, а с другой стороны, мы надеемся улучшить долгосрочный опыт пользователей. В начале это было реализовано с помощью стратегии разделения. В настоящее время два алгоритма, MMR и DPP, в основном пытаются повторить. В эксперименте MMR работает лучше, чем DPP. Вот краткое введение. MMR (Максимальная предельная релевантность) алгоритм максимальной предельной корреляции для обеспечения корреляции при улучшении разнообразия. Вес разнообразия и корреляции регулируется параметром λ.Чем больше λ, тем выше корреляция, чем меньше λ, тем выше разнообразие.
В алгоритме MMR есть два сходства: сходство между пользователем и элементом представлено уточненной оценкой, а сходство между элементами основано на сходстве элементов совместной фильтрации. Ожидание перестановки состоит в том, чтобы достичь оптимальности по Парето и увеличить индекс разнообразия без снижения других показателей. В итоге это также оправдало ожидания: количество выставленных альбомов на душу населения увеличилось на 8,84%, а количество прослушанных второстепенных категорий на душу населения увеличилось на 7,06%.
3. Архитектура
3.1 Общая архитектура
Эффективная и стабильная работа рекомендательной системы неотделима от отличной архитектурной поддержки. Архитектура рекомендаций Dragonfly представляет собой типичную трехуровневую архитектуру, а именно офлайн, ближний и онлайн. Автономный уровень отвечает за обработку данных, обучение модели и отчетность по данным; почти линейный уровень отвечает за обработку признаков в реальном времени, отзыв и грубую сортировку; онлайн-уровень несет бизнес-логику, такую как ответ на запрос пользователя, точную сортировку и т. д. перестановка и системы доставки.
3.2. Развертывание модели алгоритма
Как можно эффективно развернуть модель алгоритма в сети? Это вызов, с которым сталкиваются как студенты, изучающие алгоритмы, так и инженеры. В начале наша служба прогнозирования модели и API рекомендаций были реализованы в Golang, Процесс получения признаков был завершен в тесте API рекомендаций, а служба прогнозирования модели отвечала за загрузку модели и прогнозирование полученных данных. Golang используется для объединения функций в режиме онлайн, а Scala используется для объединения функций в автономном режиме.Межъязыковое выравнивание и проверка занимают много времени на разработку. Могут ли офлайн и онлайн использовать один и тот же набор операторов для объединения и обработки признаков? С этой целью мы переключили службу прогнозирования моделей на платформу Scala Play и разработали библиотеку получения и обработки функций на основе Scala, которая используется Spark и Play для обеспечения согласованности логики обработки функций. В то же время служба прогнозирования моделей добавляет поддержку нескольких моделей и версий, а также автоматическое обновление моделей для дальнейшего повышения эффективности развертывания моделей.
4. Перспективы
Рекомендация потока информации на главной странице была установлена с 0 до 1, и она достигла хорошего роста за счет итерации, оптимизации и улучшения. У нас еще много задач, которые мы должны попробовать и изучить в будущем. С точки зрения контента, как помочь новому контенту стать популярным шаг за шагом и как сотрудничать с продуктами, исследованиями и разработками и операциями для создания полной экосистемы контента; с точки зрения бизнеса, все больше и больше предприятий, поддерживаемых информационным потоком, включают альбомы, Прямые трансляции, заказы на прослушивание и программы. и как активировать потенциальных потерянных пользователей; с точки зрения алгоритмов, как работает обучение модели? Чтобы быть более в реальном времени, ожидается ли, что многоцелевая сортировка заменит одноцелевую сортировку. Это направления, которые мы рассмотрим далее.
представление о себе:
Цзи Фей, технический руководитель технологии рекомендаций Dragonfly FM. Опыт работы в сфере рекомендаций и поиска 9 лет.В настоящее время отвечает за разработку архитектуры и алгоритмов рекомендательного, поискового и других сервисов по распределению трафика Dragonfly FM.
Командный толчок:
Интеллектуальная операционная группа Dragonfly FM в настоящее время набирает алгоритмы рекомендаций и разработку Golang Заинтересованные студенты, пожалуйста, присылайте свои резюме наjifei@qingting.fmи напрямую поговорите с ответственным техническим специалистом.