Analytics India杂志
现在读
如何衡量推荐系统的成功?
Analytics India杂志

如何衡量推荐系统的成功?

Vijaysinh Lendave

推荐系统从电子商务到社交媒体,为客户提供个性化的推荐。推荐给客户带来的好处,比如减少信息超载,一直是研究的热点。然而,目前还不清楚推荐系统如何以及在多大程度上产生商业价值。建立一个可靠的产品建议系统是一项挑战。然而,定义什么是可靠也是一项具有挑战性的任务。从商业的角度来看,衡量任何推荐系统的成功都是非常必要的。在这篇文章中,我们将通过最重要和最常用的评估参数来衡量推荐系统的成功。本文将讨论的主要要点概述如下。

表的内容

  1. 推荐系统面临的挑战
  2. 使用常见的指标
  3. 业务具体措施

让我们通过理解推荐系统面临的挑战来开始讨论。

注册2021年Analytics Olympiad >>

推荐系统面临的挑战

任何预测模型或推荐系统无一例外都严重依赖数据。他们根据所掌握的事实提出可靠的建议。最好的推荐系统来自拥有大量数据的组织,如谷歌、亚马逊、Netflix或Spotify,这是很自然的。为了发现共性并提出建议,好的推荐系统会评估项目数据和客户行为数据。机器学习依赖于数据;系统拥有的数据越多,结果就越好。

数据在不断变化,用户的偏好也在不断变化,你的业务也在不断变化。这是很多新的信息。你的算法能跟上变化吗?当然,基于最新数据的实时建议是可能的,但它们也更难以维护。另一方面,批处理更容易管理,但不能反映最近的数据更改。

随着时间的推移,推荐系统应该继续提高。机器学习技术协助系统“学习”模式,但系统仍需要指令给出适当的结果。您必须改进它,并确保您越来越遵循您的业务目标的任何调整。

常用的指标

预测准确性度量、分类准确性度量、等级准确性度量和非准确性度量是推荐系统的四种主要评估度量类型。

预测精度指标

预测准确性或评级预测措施处理的主题是推荐人的估计评级与真实用户评级的接近程度。这种方法被广泛用于评估非二元评级。

它最适合使用场景,其中对所有产品的评级准确预测至关重要。平均绝对误差(MAE),均方误差(MSE),根均方误差(RMSE),归一化平均绝对误差(NMAE)是此目的最重要的措施。

与MAE度量标准,MSE和RMSE相比,使用平方偏差,从而强调更大的错误。MAE和RMSE以与所获得的数据相同的单元描述误差,而MSE产生平方单元。

为了使结果与不同评级尺度的推荐人相比,NMAE将MAE测量标准化为适当的评级规模的范围。在Netflix竞争中,利用RMSE措施来确定与电池电影算法相比的改进,以及奖品获奖者。

分类精度指标

分类准确度措施试图评估推荐算法的成功决策能力(SDMC)。它们对于用户任务非常有用,例如识别不错的产品,因为它们评估了右侧和错误分类的数量,作为推荐系统生成的相关或无关的事物。

SDMC测量方法忽略对象的准确评级或排名,它只是简单地量化正确或错误的分类。这种类型的度量特别适合于试图说服用户采取某些行动(如购买产品或服务)的电子商务系统。

排名准确度指标

在统计学中,排名准确性或排名预测指标评估推荐者基于用户偏好估计项目正确顺序的能力,这被称为排名相关性度量。因此,如果用户得到一份长长的、经过排序的商品推荐列表,那么这种方法是最合适的。

偏好值的相对排序被用于排名预测度量,它与推荐者评估的准确值无关。例如,始终高估道具评级低于真实用户偏好的推荐人,只要排名正确,仍可能获得完美分数。

平均平均精度@ k和平均召回@ k

对于测试集中的每个用户,推荐系统通常会生成一个有序的推荐列表。[电子邮件受保护]指示推荐项目列表的相关性,然而[电子邮件受保护]指示推荐者回忆用户评价过的测试集中的所有项目的能力。

业务具体措施

企业评估已部署推荐系统的效果和业务价值的方式受到许多因素的影响,包括应用领域,更重要的是,公司的业务战略。广告可以部分或全部用于支持此类商业战略(如YouTube或新闻聚合网站)。这个场景的目标可能是增加人们使用服务的时间。对于采用付费订阅模式(如音乐流媒体服务)的公司来说,增加用户粘性也是一个目标。

在上述所有例子中,潜在的商业模式和目标决定了公司如何判断推荐人的价值。下面的图表描述了文献中确定的基本测量方法,我们将逐一进一步讨论。

点击率

点击率(CTR)是一个度量标准,测量有多少人点击建议。基本概念是,如果更多人点击推荐的东西,建议与他们更相关。

在新闻推荐中,点击率是一个广泛使用的指标。Das等。发现个性化的建议与基线相比,点击次数增加了38%,仅推荐在谷歌的新闻个性化引擎上的早期纸张中的流行文章。然而,在某些时候,当有很多关注名人新闻时,基线实际上更好。

另请参阅

采用和转换

与依赖于广告的在线商业模式不同,点击率往往不是推荐方案的最终成功衡量标准。虽然点击率可以衡量用户的注意力或兴趣,但它不能告诉你用户是否喜欢他们点击的推荐新闻文章,或者他们是否根据推荐购买了某些东西。

因此,经常使用替代的采用措施,这些措施表面上更适合确定建议的有效性,表面上基于特定领域的考虑。YouTube采用了“长点击率”(long CTRs)的理念,即只有当用户观看了特定比例的视频时,才会统计用户对建议的点击量。类似地,Netix利用一个称为“接收率”的指标来确定一个视频或电影在被推荐后实际被观看了多少次。

缓解和收入

在许多情况下,前一节中概述的采用和转换措施比点击率措施更能说明推荐者的潜在商业价值。当客户从建议列表中选择多个商品时,这是一个很好的指标,表明新算法成功地识别了后来的购买或视图。用户感兴趣的东西。

尽管如此,确定这种采用中的改进如何转化为更大的业务价值仍然很困难。因为推荐人可能会向消费者提供许多他们可能会购买的建议,公司价值的增长可能会低于我们仅根据采用率增长预期的水平。此外,如果建议的相关性已经很差,即几乎没有人点击它们,那么将采用率提高100%可能会为公司带来非常少的绝对附加价值。

用户行为和用户粘性

据认为,较高水平的用户订婚可以促进各种应用域中的用户保留水平,例如视频流,又往往立即转换为企业价值。许多真正的推荐系统测试已经发现,具有推荐人会增加用户活动。根据应用程序域,使用不同的测量。

音乐领域的建议,研究人员比较,发现的各种推荐策略推荐策略结合使用和内容数据(称为混合)不仅导致更高的录取率还50%更高层次的活动比个人的播放列表添加策略。

总的来说,具体措施的使用是不受限制的;它只取决于系统用于解决的业务问题的类型。我们的一些发现的概述可以在下表中找到。

除此之外,我们还可以利用我们的标准ML评估指标来评估评级和预测,如下所示。

  • 精度
  • 回忆
  • F1-measure
  • 假阳性率
  • 意思是平均精度
  • 平均绝对误差
  • ROC曲线下面积(AUC)

结论

通过这篇文章,我们了解了在评估推荐系统的性能时使用的不同指标。首先,我们看到了推荐系统所涉及的一些常见挑战。后来我们看到了一些常用的绩效指标,最后,我们看到了像Netflix、YouTube这样的成熟企业是如何定义这些评估策略的。

参考

你怎么看?

订阅我们的通讯

通过分享您的电子邮件获取最新的更新和相关优惠。
加入我们的Telegram Group。成为一个有吸引力的社区的一部分

188BET网页

滚动到顶部
Baidu