Система рекомендаций: портрет пользователя (3)

алгоритм
Система рекомендаций: портрет пользователя (3)
参考 https://zhuanlan.zhihu.com/p/103754069
感谢大佬的分享

Суммировать

用户画像在推荐系统中是用来刻画user的。
用户画像中又分为4大类属性
   人口属性
   兴趣属性
   网络属性
   商业属性

关于人口属性,这类属性app一般是引导用户在注册app的时候填写的,但是并不是强制用户填写。
所以这类属性会存储严重的缺失的情况,并且数据的准确性也不能保证。

一般的做法是:通过准确填写了人口属性的用户数据作为样本数据,来预测那些没有填写人口属性数据的用户的人口属性数据。也就是根据有的来预测没有的。

人口实行一般是比较固定的属性,比如性别,年龄阶段,婚姻状况,一般在段时间内不会发生变化。
兴趣属性,分为长期的和短期的。
   

Система тегов для портрета пользователя

用户画像是来刻画user的。

标签体系是用户画像的基础,本质上用户画像是一系列与用户相关的标签的结构化表示,也是成体系的。
同时用户画像各个细分维度的构建也是同样遵守标签体系构建的原则——以业务为导向。
从汽车之家的用户画像实践看,大体是分为人口属性、兴趣属性、网络属性、商业属性四个维度。

image.png

Построение портрета пользователя

本文着重介绍一下人口属性和兴趣属性,

Атрибут населения

人口属性主要包含性别、职业、年龄阶段、婚姻状况等,人口属性相关的标签相对比较稳定,构建一次在较长时间类是不用更新的;
兴趣属性主要相关的标签随时间变化很快,有较强的时效性,之家的实践是分为长期、短期。

image.png

很多app在注册时就会引导用户填写基本信息,这些信息就包括年龄、性别、收入等大多数的人口属性,
但完整填写个人信息的用户只占很少一部分,而且数据的准确性也不能保证。
而对于无社交属性的产品(如输入法、团购APP、视频网站等)用户信息的填充率非常低,有的甚至不足5%。

在这种情况下,
我们一般会用填写了基础信息的这部分用户作为样本,把用户的行为数据作为特征训练模型,
对没有填写基础信息的用户进行人口属性的预测。
这种模型把用户的标签传给和他行为相似的用户,可以认为是对人群进行了标签扩散,因此常被称为标签扩散模型。

下面我们用汽车之家性别年龄画像的例子来说明标签扩散模型是如何构建的:

对于购车用户我们也希望尽可能了解其性别,不同性别的用户在购车的意向车系上还是有较大差别的。

假设我们有40%的用户填写了个人信息,我们将这40%的用户作为训练集,来构建全量用户的性别画像,
数据如下所示:

image.png

下面我们来构建特征。
通过分析,我们发现男性和女性,对于意向车系的偏好是有差别的,因此使用阅读车系相关的文章列表来预测用户性别有一定的可行性。
此外我们还可以考虑用户阅读文章的点击率、完读率、评论、转发、点赞等行为,为了简化,这里我们只使用用户浏览文章特征。

由于阅读文章的特征是稀疏特征,我们可以使用调用MLlib,使用LR、线性SVM等模型进行训练。
考虑到注册用户填写的用户信息本身的准确率不高,我们可以从40%的样本集中提取准确率较高的部分(如用户信息填写较完备的)用于训练,因此我们整体的训练流程如下所示。

image.png

对于人口属性标签,只要有一定的样本标签数据,并找到能够区分标签分类的用户行为特征,就可以构建标签扩散模型。
其中使用的技术方法主要是机器学习中的分类技术,常用的模型有LR、FM、SVM、GBDT等

Атрибут интереса

下面是部分车相关的兴趣属性

image.png

上图兴趣属性中的各个标签在个性化推荐、互联网广告、精准营销中显得尤为重要。
兴趣属性主要是从用户海量行为日志中进行核心信息的抽取、标签化和统计,
因此在构建用户画像的兴趣属性之前需要先对用户有行为的内容进行标签体系(分类-主题-关键词)构建。
关于内容标签体系构建上一篇文章中已经讲过,不再赘述。
对于兴趣属性,我们需要认识到用户的兴趣点是受各种各样因素影响的,所以我们要考虑到兴趣和时间这个维度的关系。