Применение глубокой модели DNN в сценариях персонализированных рекомендаций

Спасибо, что прочитали оригинальную статью «Meitu Data Technology Team», обратите внимание на публичный аккаунт и ответьте в фоновом режиме.Цзян ВэньруйВы можете получить полный PPT этого обмена, и его можно увидеть более четко в статье ~

Благодаря большому успеху глубоких нейронных сетей в распознавании речи и изображений AlphaGo победила лучших игроков в го, а искусственный интеллект, основанный на глубоких сетях, возвестил третью кульминацию. В то же время проблема информационной перегрузки, с которой сталкивается Интернет, становится все более серьезной, и персональные рекомендации являются важным методом фильтрации информации.

На девятом Салоне технологий Meitu Цзян Вэньруй из Meitu использовала короткие видеоролики в качестве отправной точки для изучения того, как применять глубокие модели в сценариях персонализированных рекомендаций. Такая модель «глубоко» понимает предпочтения пользователя, сохраняя при этом определенную эффективность логического вывода.

бизнес фон

Основная бизнес-сцена нашей команды находится в модном сообществе коротких видео Meipai, а домашняя страница Meipai отображается в виде потока с двумя столбцами, который является популярной сценой коротких видео. Если пользователь все еще недоволен после просмотра текущего популярного короткометражного видео и хочет увидеть больше похожего контента, он может провести пальцем вниз, то есть бизнес-сценарий скольжения вверх и вниз.

Мы живем в эпоху информационной перегрузки, и новые медиа-платформы, такие как короткое видео, не являются исключением. С повышением удобства производства и выпуска коротких видеороликов каждую минуту и каждую секунду будет производиться большое количество коротких видеороликов.Столкнувшись с такой информационной перегрузкой, персонализированные рекомендации становятся все более и более важными.

Процесс персонализированных рекомендаций

Персональные рекомендации делятся на несколько этапов. существуетфаза отзываОцените контент, который может заинтересовать пользователя, и отфильтруйте контент, который не интересует пользователя.этап сортировкиСделайте подсчет очков для результатов отзыва, до финалаЭтап оценкиВсесторонний учет новизны, разнообразия, точности, режима реального времени и других факторов для предоставления рекомендуемых результатов пользователям. Дальнейшее будет вращаться вокруг фазы сортировки. На этапе сортировки существуют различные модели стратегий: линейная модель LR, нелинейная модель GBDT и модель NN Причина, по которой мы выбираем модель NN, заключается в том, что у нее больше места для воображения и игры.

Как получить хорошую глубокую модель DNN?Мы не можем пытаться применять его к онлайн-сервисам каждый раз, когда вносим коррективы, но нам нужны некоторые показатели, чтобы быстро измерить, соответствует ли модель ожиданиям. Затем мы определяем два показателя из двух точек бизнес-требований, один показатель используется для измерения пригодности модели. Метрика, другая метрика используется для измерения эффективности вывода модели Efficiency , проще говоря, двумя словами:позволятьибыстрый.

Так зачем тебе пересекаться? Давайте сначала посмотрим на два примера Cross. Представьте себе такой сценарий: когда пользователь открывает Meipai, отображается видео.Если тема или тег видео — макияж, можно представить, что вероятность нажать кнопку воспроизведения, когда пользователь женского пола, намного выше, чем у мужчин. пользователей.Это второй заказ.Кросс например. То же самое можно распространить и на пересечение третьего порядка: при условии сохранения первых двух признаков (пол: женский, метка: макияж) вводится возрастной признак: этот тип видео проигрывают пользователи определенной возрастной группы. Вероятность больше, чем у других пользователей, что называется кроссовером третьего порядка.

Примечание. Крест — это пересечение элементов, символ fModel_BI table Пересечение элементов.

Эволюция глубинных моделей

Как показано на рисунке ниже, красная область указывает на то, что целью оптимизации является метрика подгонки модели, а более поздняя цель оптимизации преобразуется в эффективность вывода модели.

1.LR

Модель LR представляет собой типичную широкую и неглубокую модель.Такая модель имеет характеристику: она использует ручное пересечение признаков, когда использует метод кодирования One-hot.

Преимущество:

легко использовать

Модель очень мелкая, а эффективность вывода модели высокая.

Недостаток:

Линейная модель плохо подходит для нелинейных сценариев.

Ручное пересечение объектов

Стоимость высока. Когда вы хорошо знакомы с бизнесом, вы можете извлечь некоторые эффективные пересечения функций для этого бизнеса. Если вы переключаетесь на новый бизнес, вам нужно потратить много времени и средств, чтобы ознакомиться с новым бизнесом. , чтобы извлечь эффективные функции пересечения.

Масштабируемость плохая.В реальных бизнес-сценариях с увеличением размеров признаков также будет возрастать сложность эффективного извлечения всех пересекающихся признаков.

Способность к подгонке плохая.Возьмите упомянутый выше пример пересечения пола и ярлыка, это очевидное пересечение, но в реальном бизнесе многие пересечения неявны и невидимы, и их трудно извлечь вручную.

Из-за недостатков ручного пересечения объектов мы подумали о том, можем ли мы автоматически фиксировать пересечение объектов на уровне модели, поэтому мы представили модель FM.

2.FM

Структура модели FM показана на рисунке ниже.Розовая часть представляет собой часть исходной модели LR, синяя часть представляет собой изучение кроссовера признаков, а темно-красный узел представляет перекрестное изучение пола и метки второго порядка.

Мы оцениваем офлайн-метрики каждый раз, когда делаем эволюцию модели, которая являетсяВозможность установки. Это видно из таблицы уровня эффекта на рисунке ниже: По сравнению с LR-моделью автономные показатели FM-модели имеют хорошее улучшение.

С другой стороны, хотя FM-модель преодолевает недостатки ручного пересечения признаков, она по-прежнему принадлежит к семейству линейных моделей. Итак, мы представили модель NFM.

3.NFM

Судя по названию, модель NFM добавляет поле «Нейронное» перед моделью FM, что очень интуитивно понятно для отражения в структурной диаграмме модели NFM. Мы подключили трехслойный полносвязный слой FC после слоя BI-взаимодействия (модель LR по-прежнему находится в правой части структурной диаграммы модели), что улучшило нелинейную подгонку модели. Но когда вы подумаете о самой модели, вы обнаружите, что модель NFM, как и модель FM, по-прежнему может захватывать только пересечения второго порядка и не может захватывать пересечения третьего или даже более высокого порядка.

Для сбора пересечений более высокого порядка мы вводим модель DCN, Deep Cross Network.

4.DCN

Модель DCN аналогична модели NFM, за исключением поперечной части структуры. Модель DCN захватывает определенный порядок пересечений, контролируя количество слоев Cross, слой Cross может захватывать пересечения второго порядка, а Cross второго уровня может захватывать пересечения третьего порядка... и так далее.

Далее это демонстрируется расширением слоя CrossКак захватить кроссоверы второго и третьего порядка.

Перекрестные захваты второго порядка: CTR (пол: женский, метка: макияж) > CTR (пол: мужской, метка: макияж).

Перекрестные захваты третьего порядка: CTR (Пол: Женский, Ярлык: Макияж, Возраст: 18–36) > CTR (Пол: Женский, Ярлык: Макияж, Возраст: 12–18).

Именно x фиксируется при изучении кроссовера второго порядка.₁=x₀ x₀^T.

При захвате пересечения третьего порядка это x₂=x₀ x₁^T.

Расширьте кроссовер N-порядка до кроссовера N+1 порядка таким циклическим способом. Кроме того, при реализации модели DCN необходимо обратить внимание: по свойствам матрицы ранга 1 сначала вычислить часть xt, умноженную на w. Если предположить, что длина вектора после встраивания равна 2000, то пространственная сложность может быть оптимизированным от 2000*2000 до 2000. С помощью этого механизма реализации можно эффективно избежать OOM, вызванного большим пространством параметров.

этапный анализ

При переходе от модели FM к модели NFM способность модели к нелинейному подбору усиливается; при переходе от модели NFM к модели DCN модель изменяется с захвата только пересечения второго порядка на захват пересечений более высокого порядка. На графиках ниже вы можете увидеть улучшение NFM по сравнению с FM и DCN по сравнению с NFM.

От модели LR до модели FM, модели NFM и модели DCN мы ориентируемся на модельУлучшенная посадкаВ вышеизложенном были достигнуты соответствующие поэтапные результаты. Однако трудно иметь одновременно и рыбу, и медвежью лапу.Повышая способность подбора модели, это неизбежно увеличивает сложность модели, что приводит к снижению эффективности вывода модели.

Затем рассмотрите возможность сохранения соответствия модели (в пределах допустимого диапазона ухудшения соответствия модели).Улучшить эффективность логического вывода модели. Во-первых, анализируется, что причина низкой эффективности вывода модели NFM кроется в слое встраивания.Процесс поиска в таблице признаков сверхвысокой размерности слоя встраивания занимает много времени, поэтому рассмотрите возможность замены вложения слой с классическим слоем FC. Но такая простая замена может создать две проблемы:Параметры оверсайз и модели оверсайз.

5.xNFM

Источник проблемы заключается в том, что независимо от того, какие функции единообразно закодированы как вектор фиксированной длины (например, 128), является ли этот метод пустой тратой пространства кодирования? Итак, мы представляемфункциональный домен, и различать длину кодирования в соответствии с доменом признаков. Размер объекта, который может поддерживаться сетью, эффективно расширяется с помощью метода сегментации объектов, который преодолевает проблемы негабаритных параметров и негабаритных моделей.Эта модель, которая добавляет сегментацию объектов и выходной слой FC, является моделью xNFM.

После оптимизации был проведен поэтапный анализ, и было обнаружено, что эффективность логического вывода модели xNFM вдвое выше, чем у модели NFM. Однако в процессе продвижения этой модели все равно будут встречаться узкие места, ведь множество субдоменных FC также в определенной степени усложняют модель. На этом этапе мы представляем модель xNFM_Sparse.

6.xNFM_Sparse

Модель xNFM_Sparse вернулась из FC Embedding к простому методу просмотра таблицы Embedding, но в ней реализован набор методов Sparse Embedding (эффективный метод Embedding) и включена часть операций BI-взаимодействия для повышения эффективности прямого вывода модель. Сравнивая модель xNFM_Sparse и модель xNFM, можно сделать вывод, что Метрика остается в основном такой же, но эффективность вывода Efficiency снова удвоилась.

Резюме глубокой модели

Выше показано, как шаг за шагом оптимизировать подгоночную способность модели и эффективность вывода модели.Далее делается сводка существующих моделей.

Наша модель охватывает 4 области:

Embedding
LR
MLP
Cross

В отличие от сверточной нейронной сети CNN, которая понимает семантику изображений, функции в сценариях персонализированных рекомендаций обычно многомерны и очень разрежены, и для решения этой проблемы необходимы эффективные методы встраивания. Для модели LR и модели MLP необходимо захватывать память через Wide модель, то есть преимущество Wide заключается в высокочастотной части обучающей выборки, мало параметров обучения. В то же время, Глубокая модель также требуется для захвата обобщенияОбобщение.Преимущество Глубокой части заключается в длинной хвостовой части обучающей выборки предсказание (ненулевой вектор встраивания). Последняя часть Cross автоматически захватывает пересечения второго порядка, третьего порядка и даже более высокого порядка в модели MLP также можно резюмировать как захват неявных пересечений признаков, а Cross можно резюмировать как захват пересечений доминирующих признаков. .

Оглядываясь назад на эволюцию глубокой модели, на начальном этапе LR, Wide & Deep мы захватили объекты пересечения вручную, а Wide & Deep также захватили пересечение скрытых объектов; на этапах FM, NFM, DeepFM мы смогли захватить доминантный кроссовер второго порядка; затем в DCN мы управляем порядком кроссовера через количество сетевых слоев, чтобы захватить доминантный кроссовер высокого порядка на уровне элементов, пока эта статья не станет расширенным xDeepFM, который захватывает вектор- кроссовер высокого порядка с доминирующим уровнем.

Перспективы будущего

Несмотря на то, что на модели серии Deep FM было потрачено так много места, FM не является нашим основным направлением, это больше похоже на основу для небоскреба.

«Это не конец, это только начало».

Взяв за отправную точку модель глубокого FM, подумайте о ее недостатках и о том, как ее улучшить на уровне бизнеса и модели соответственно. Во-первых, это бизнес-уровень.Простая DNN подвержена следующим двум проблемам:

проблема с холодным запуском

Новые пользователи или видеоролики имеют мало соответствующих поведенческих характеристик, а «откалиброванная» модель имеет плохую способность характеризовать и рассуждать для таких пользователей или видеороликов.

представительская способность

Чисто числовые статистические характеристики имеют ограниченную способность представлять, а поведение пользователей — это предвзятые впечатления, созданные визуально, а визуальная информация легче привлекает пользователей.

Столкнувшись с этими двумя проблемами, мы вводим мультимодальное слияние данных, и модель также объединяет преимущества нескольких моделей. Внедрите CNN и RNN/LSTM, сохранив при этом следующие преимущества FM.

1. Эффективная технология встраивания для работы с многомерными разреженными функциями.

2. Возможность нелинейного представления, эффективный захват неявного пересечения

3. Эффективный захват доминирующих кроссоверов

Среди них CNN может эффективно фиксировать особенности визуального измерения пользователей. В то же время для вновь появляющихся видео, даже если они не появляются в обучающих данных, CNN может сделать хороший вывод. В то время как RNN/LSTM способствует эффективному изучению последовательностей поведения пользователя.

С точки зрения самой модели, модель, подобная DNN, имеет следующие неотъемлемые преимущества:

Отличная способность подгонки данных, современная в различных сферах бизнеса
Алгоритмы крупномасштабной стохастической оптимизации просты и эффективны.

Но DNN также имеет присущие ему недостатки:

Слишком много гиперпараметров (таких как скорость обучения, параметры регуляризации и т. д.), которые сложно изучить.
При точечной оценке неопределенность параметров не может быть учтена

иБайесовский выводможет эффективно преодолеть эти недостатки. Байесовский вывод использует небольшое количество априорного распределения и оценки параметров и полностью учитывает неопределенность параметров. Поэтому мы представляем онлайн-байесовское глубокое обучение, которое сохраняет преимущества модели DNN и преодолевает ее недостатки, а модель можно обновлять онлайн в режиме реального времени, чтобы получать отзывы пользователей в реальном времени.