您现在的位置是:首页 > 恋爱课程恋爱课程

兴趣度度量指标 推荐系统常用测评方法和指标

2021-06-04 21:05:04恋爱课程人已围观

简介兴趣度度量指标 推荐系统常用测评方法和指标测评方法:测评方法:(4)通过事先定义的离线指标测评算法在测试集上的预测结果。的好处是显而易见的,可以公平获得不同算法实际在线时的性能指标;其中Rui是用户u对物品i的实际评分,hat(Rui)是推荐系统预测的用户u对物品i的预测评分;|T|是总记录数定义:TopN推荐是通过给用户一个前N个喜好物品的推荐列表,TopN推荐的预测率一般通过准确率()/召回率()度量选择不同维度,对推荐系统进行测评

绅恋情感
限时免费领取5000条聊天话术,立即加导师微信领取:  NM007800
(←长按复制)

国内首席恋爱聊天核心秘籍,学这一套就够了: 立即下载 (←文件较大,耐心等待)

兴趣度度量指标 推荐系统常用测评方法和指标

总结:

测量方法:

线下实验

在线实验

评价指标:

1.用户满意度

在线评价方式

2.预测准确率

2.1分数预测

2.

3.覆盖率()

4.

5.新性

内容:

测量方法:

线下实验

(1)通过日志系统获取用户行为数据,按照一定格式生成标准数据集;

(2)将数据集按照一定的规则划分为训练集和测试集;

(3)在训练集上训练用户兴趣模型,在测试集上做预测;

(4)通过预定义的离线指标评估算法在测试集上预测结果。

离线实验常用的预测指标:准确率、召回率等

在线实验

完成线下实验和必要的用户调查后兴趣度度量指标,即可将推荐系统上线进行AB测试

还有几点需要注意:

(1)AB测试的好处很明显兴趣度度量指标,不同算法的性能指标在实际上线时可以公平的获得;

(2)AB 测试和用户调查一样,也需要考虑随机分布。尽量列出所有与最终指标相关的因素。总之,流量的细分是关键进行AB测试;

(3)AB 测试的一个重要缺点是实验周期长,可以得到可靠的结果。因此,AB 测试不应该测试所有算法,而应该只测试那些在离线实验中表现良好的算法和用户调查。算法;

(4)如果有用户标签库,对在线实验有很大帮助。

4.总结

一个新的推荐算法终于上线了,需要完成上面提到的三个实验:

(1)首先,线下实验需要证明在很多线下指标上优于现有算法;

(2) 那么,需要通过用户调查确定其用户满意度不低于现有算法;

(3)最后通过网上等AB测试,确定在我们关心的指标上比现有算法更好。

评价指标

1.用户满意度

在线评价方式:主要通过用户行为统计(点击次数、停留时间、转化率)或用户反馈(满意、不满意)

2.预测准确率

2.1分数预测

定义:预测用户对商品评分的行为

指标:

均方根误差 (RMSE):

平均绝对误差 (MAE):

Rui 为用户 u 对 item i 的实际得分,hat(Rui) 为用户 u 对 item i 的预测得分,由推荐系统预测; |T|是记录总数

2.

定义:TopN推荐就是给用户一个最喜欢的前N个商品的推荐列表。 TopN推荐的预测率一般用准确率()/召回率()来衡量

指标:

准确率:

召回率:

R(u)是训练集中基于用户行为的推荐列表,T(u)是测试集中基于用户行为的推荐列表

预测率:

率 = /

平均准确率:

参考链接()

3.覆盖率()

定义:衡量推荐系统挖掘长尾产品的能力

指标:

指标 1:

其中U是用户集兴趣度度量指标,I是项目集,R(u)是推荐给用户u的N个项目的集合

统计分布指标:

信息熵:

, 其中 p(i) 是物品 i 的流行度,而不是所有物品的流行度

基尼系数(不同于CART中的基尼系数):

其中 p(Ij) 是物品流行度字典中第 j 个物品的流行度,按降序排列

4.()

定义:推荐系统中item之间的差异

指标:

用户u推荐列表的多样性R(u):

,其中 s(i,j) 是项目 i,j 的相似度

推荐系统的整体多样性:

,即所有用户推荐列表多样性的平均值

5.新性

定义:推荐用户之前没有接触过的项目的指标

指标:平均受欢迎程度(新奇程度越高,越低)

选择不同的维度来评估推荐系统

我的代码:

Tags:兴趣度度量指标

很赞哦! ()

文章评论

留言与评论(共有 0 条评论)
   
验证码:

本栏推荐

站点信息

  • 文章统计12929篇文章
  • 浏览统计16816471次浏览
  • 评论统计0个评论
  • 标签管理标签云
  • 统计数据:统计代码
  • 微信:扫描二维码,关注我们