详细内容或原文请订阅后点击阅览
并非所有 RecSys 问题都是一样的
基线强度、流失率和主观性如何决定复杂性并非所有 RecSys 问题都是平等的帖子首先出现在走向数据科学上。
来源:走向数据科学行业的异常现象扭曲了我们对推荐系统的定义。TikTok、Spotify 和 Netflix 采用混合深度学习模型,将协作过滤和基于内容的过滤相结合,提供您甚至不知道自己喜欢的个性化推荐。如果您正在考虑担任 RecSys 角色,您可能希望立即深入研究这些内容。但并非所有 RecSys 问题都在这个级别上运行(或需要运行)。大多数从业者使用相对简单的表格模型,通常是梯度增强树。在参加布拉格的 RecSys '25 之前,我认为我的经历是异常的。现在我相信这是常态,隐藏在推动行业发展的巨大异常值背后。那么,是什么让这些巨头与大多数其他公司不同呢?在本文中,我使用上图中映射的框架来推理这些差异,并帮助您将自己的推荐工作放在该范围内。
大多数推荐系统从候选生成阶段开始,将数百万个可能的项目减少到可管理的集合,可以通过更高延迟的解决方案进行排名。但候选人的生成并不总是像人们想象的那样是一场艰苦的战斗,也不一定需要机器学习。具有明确定义范围和硬过滤器的上下文通常不需要复杂的查询逻辑或向量搜索。以 Booking.com 为例:当用户搜索“10 月 1 日至 4 日巴塞罗那的四星级酒店”时,地理和可用性限制已经将数百万家酒店缩小到了几百家。机器学习从业者面临的真正挑战是对这些酒店进行精确排名。这与亚马逊的产品搜索或 YouTube 主页有很大不同,后者没有硬过滤器。在这些环境中,需要可扩展的机器学习来将庞大的目录缩减为更小的、语义和意图敏感的候选集——所有这些都在排名发生之前进行。
