您现在的位置是:首页 > 恋爱课程恋爱课程

强兴趣指标 标签体系到用户画像

2021-06-04 18:02:47恋爱课程人已围观

简介强兴趣指标 标签体系到用户画像标签体系到用户画像在这种情况下,我们一般会用填写了信息的这部分用户作为样本,把用户的行为数据作为特征训练模型,对无标签的用户进行人口属性的预测。兴趣属性中的各个标签在个性化推荐、互联网广告、精准营销中显得尤为重要。标签的准确率指的是被打上正确标签的用户比例,准确率是用户画像最核心的指标,一个准确率非常低的标签是没有应用价值的。

绅恋情感
限时免费领取5000条聊天话术,立即加导师微信领取:  NM007800
(←长按复制)

国内首席恋爱聊天核心秘籍,学这一套就够了: 立即下载 (←文件较大,耐心等待)

强兴趣指标 标签体系到用户画像

将系统标记为用户画像

上一篇文章介绍了标签系统。事实上,标签系统是用户画像的基础。本质上,用户画像是用户相关标签的一系列结构化表征,也是系统性的。同时对用户画像进行细分。维度的建设也遵循标签体系建设-业务导向的原则。从智家的用户画像实践来看,大致分为人口属性、网络属性、兴趣属性、商业属性四个维度。

人像词云用户画像的构建

本文重点介绍人口统计属性和兴趣属性。人口统计属性主要包括性别、职业、年龄、婚姻状况等强兴趣指标,人口统计属性相关的标签相对稳定,构建一次后无需长时间更新类别;兴趣属性 主要相关标签随时间变化迅速,具有很强的时效性。至嘉的修行分为长期和短期。

人口属性

大部分主流人口属性标签都与本系统类似

人口统计维度

很多产品在注册时都会引导用户填写基本信息。这些信息包括年龄、性别和收入等大多数人口统计属性,但只有一小部分用户填写了他们的个人信息。对于没有社交属性的产品(如输入法、团购APP、视频网站等),用户信息填充率很低,有的甚至不到5%。

这种情况下,我们一般以填写信息的用户部分为样本,以用户的行为数据作为特征训练模型,对未标注用户的人口统计属性进行预测。该模型将用户的标签传递给行为相似的用户,可视为标签向人群扩散,因此常称为标签扩散模型。

下面我们以家庭性别和年龄画像为例来说明标签扩散模型是如何构建的:

对于购车者,我们也希望尽可能多地了解他们的性别。不同性别用户的购车意愿仍存在较大差异。

假设我们有 40% 的用户填写了个人信息,我们将这 40% 的用户作为训练集,构建所有用户的性别画像。数据如下:

性别预测

让我们构建以下功能。通过分析,我们发现男性和女性对预期的汽车系列有不同的偏好。因此,利用汽车系列相关的文章列表来预测用户的性别是可行的。此外,我们还可以考虑用户在阅读文章时的点击率、完成率、评论、转发、点赞等。为简单起见,这里我们只使用用户浏览文章的特征。

因为阅读文章的特征是稀疏特征,所以我们可以使用LR和线性SVM等模型进行调用训练。考虑到注册用户填写的用户信息准确率不高,我们可以从40%的样本集中抽取准确率更高的部分(比如比较完整的用户信息)进行训练,所以我们的整体训练过程如下所示。

性别预测过程

对于人口属性标签,只要有一定的样本标签数据,并且找到能够区分标签分类的用户行为特征,就可以构建标签扩散模型。使用的技术方法主要是机器学习中的分类技术。常用的模型有LR、FM、SVM、GBDT等

兴趣属性

以下是一些与汽车相关的兴趣属性

与汽车相关的兴趣属性

兴趣属性中的标签在个性化推荐、网络广告、精准营销中尤为重要。兴趣属性主要用于从海量用户行为日志中提取、标注和统计核心信息。因此,在构建用户画像的兴趣属性之前,需要针对用户的行为内容构建一个标签系统(--)。 内容标注系统的构建在上一篇已经讨论过了,在此不再赘述。对于兴趣属性,我们需要意识到用户的兴趣点受到各种因素的影响强兴趣指标,所以我们要考虑兴趣和时间的关系。

利息衰减

我们可以根据用户点击计算用户对分类、主题、关键词的兴趣,并得到用户兴趣标签的权重。最简单的统计方法是,当用户点击一篇文章时,该文章的所有标签都加一个用户的兴趣,用以下公式计算用户对每个词的兴趣:

其中:如果关键字出现在本次浏览的新闻中,则C=1,否则C=0,表示该词在本次新闻中的权重。这有两个问题:一是用户的兴趣积累是线性的,价值会很大,老的兴趣权重会特别高;另一个是用户的兴趣时间非常敏感,昨天的点击时间超过一个月,之前的点击重要得多,线性叠加不能突出最近的兴趣。

为了解决这个问题,需要对用户的兴趣评分进行衰减。我们使用以下方法按次数和时间衰减兴趣得分。

其中,α为衰减因子,每次衰减最后一个分数,最后的分数会收敛到一个稳定值。当α为0.9时,分数将无限接近1。

时间衰减公式如下:

意思是兴趣随着时间衰减。这样可以保证之前的利益在一段时间后会变得很弱,而最近的利益会具有更大的权重。根据用户兴趣变化的速度、用户活跃度等因素,兴趣也可以按周、月或小时进行衰减。

网络属性和商业属性我就不细说了。事实上,所有肖像都有相似的尺寸。关键是在定义每个标签时,标签的计算方法和标签的最终值必须符合业务的实际情况,能够有效支撑业务的需求。

用户画像评价

人口统计资料的相关指标比较容易评价,而兴趣属性的标签比较模糊,兴趣属性的人工评价比较困难。我们常用的评估方法是设计一个小流量的 A/B 测试进行验证。

我们可以过滤一部分标签用户,推送与这些用户相关的标签,看看标签用户是否对相关内容有更好的反馈。

例如强兴趣指标,在内容推荐中,我们为用户构建兴趣画像。我们选择一小群对改装车感兴趣的用户,推送改装车消息。如果这批用户的点击率和阅读时间明显高于平均水平,则说明该标签有效。

效果评价

评价用户画像效果最直接的方法是看实际业务的提升。例如,肖像在互联网广告中的效果主要取决于使用肖像后点击率和收入的增加,以及在精准营销过程中使用肖像后的销售量。促销等。但是,如果没有经过效果评估的模型直接在线使用,风险是非常高的。因此,我们需要一些上线前可以计算出来的指标来衡量用户画像的质量。

用户画像的评价指标主要是指准确率、覆盖率、及时性等指标。

准确率

一个标签的准确率是指被正确标签标记的用户比例。准确率是用户画像的核心指标。精度很低的标签没有应用价值。精度计算公式如下:

其中|乌塔格 |表示标记用户的数量,而 | Utag=true |表示具有正确标签的标记用户的数量。评估准确率的方法一般有两种:一种是在标注数据集中留下一部分测试数据来计算模型的准确率;另一种是从用户总数中选择一组用户,进行人工标注,并评估准确率。

由于初始标注数据集的分布与所有用户的分布相比可能存在一定的偏差,所以后一种方法的数据可信度更高。准确率一般是针对每个标签单独评估的,将多个标签的准确率放在一起评估是没有意义的。

覆盖率

标签覆盖率是指被标记的用户占用户总数的比例。我们希望标签的覆盖率尽可能高。但是,覆盖率和准确率是一对矛盾的指标,两者需要权衡。一般的做法是在精度达到一定标准的情况下,尽可能增加覆盖率。

我们希望覆盖尽可能多的用户,同时标记尽可能多的用户。因此,一般将标签的整体覆盖率拆解为两个指标进行评价。一是标签覆盖的用户比例,二是覆盖用户的人均标签数。前一个指标是覆盖的广度,后一个指标是覆盖的密度。

用户覆盖率计算方法为:

哪里|你|表示用户总数,而 |乌塔格 |表示标记用户的数量。人均标签数的计算方法为:

哪里|标签 |表示每个用户的标签数量,和 |乌塔格 |表示被标记的用户数。覆盖率可以针对单个标签、某种类型的标签或全部标签计算,所有这些都具有统计显着性。

及时性

有些标签对时间很敏感,比如兴趣标签、出现轨迹标签等,一周前没有意义;有些标签基本没有时间敏感性,比如性别、年龄等,有效期可以是一到几年。针对不同的标签,需要建立合理的更新机制,保证标签时间的有效性

用户画像应用示例-召回

在推荐系统中,用户看到的每一篇文章,一般都经历了召回、排序、干预(数量控制、拆分、权重调整、过滤、强制插入)等几个过程。召回阶段是推荐产品和算法的过程。学生应该更加努力。作者在《内容算法》一书中提到,作为今日头条的资深推荐产品,回忆今日头条的方法有上万种。 ,可见算法的粒度有多细,业务规则有多复杂。在本文中,我们仍然专注于画像,即中对用户画像中兴趣属性的使用。

如果用户的兴趣属性中存在运动兴趣偏好,则兴趣关键词为:足球、篮球、排球...

索引会根据用户画像兴趣偏好中的关键词检索包含这些关键词的素材,并按值对素材进行排序。这里的排序是按照材料的综合得分进行排序。我们将在后面的章节中介绍材料分数的计算模型。这种召回方式可以根据其他一些实际情况来确定最终召回。

想象一下,其实每个用户的兴趣偏好关键词是不一样的,所以在用户画像兴趣偏好回忆阶段,其实领先于千人。

对于前面提到的用户画像标签的AB实验,其实就是通过某种方式召回同一个标签,通过不同的定义和计算方式来验证标签的更新是否提升了实际的业务指标,比如作为点击率。

Tags:强兴趣指标

很赞哦! ()

文章评论

留言与评论(共有 0 条评论)
   
验证码:

本栏推荐

站点信息

  • 文章统计12929篇文章
  • 浏览统计16816471次浏览
  • 评论统计0个评论
  • 标签管理标签云
  • 统计数据:统计代码
  • 微信:扫描二维码,关注我们