弥合差距:新数据集将推荐研究推向现实世界规模

在推荐研究中公开可用的数据集当前塑造了该领域。

来源:KDnuggets

赞助内容

推荐系统依靠数据,但是对真正的代表性数据的访问一直是研究人员的挑战。与实际环境中用户交互的复杂性和数量相比,大多数学术数据集均苍白,因为由于隐私问题和商业价值,该数据通常被锁定在公司内部。

近年来,已经公开了几个新数据集,旨在更好地反映现实世界中的使用模式,跨越音乐,电子商务,广告以及其他方式。最近发行的一个值得注意的是Yambda-5b,这是由Yandex贡献的50亿个事件数据集,该数据基于其音乐流服务中的数据,现已通过Hugging Face获得。 Yambda有3种尺寸(50m,500m,5b),其中包括强调可访问性和可用性的基准。它加入了越来越多的资源列表,有助于缩小推荐系统中的研究对生产差距。

yambda-5b

以下是对当前塑造该领域的关键数据集的简要调查。

查看推荐研究中的公开可用数据集

最早,最广泛使用的数据集之一。它包括用户提供的电影评分(1-5星),但规模和多样性限制 - 最初的原型制作理想,但不代表当今的动态内容平台。

推荐历史记录中的具有里程碑意义的数据集(〜100m评级),尽管现在已经约会。它的静态快照和缺乏详细的元数据限制了现代适用性。

包含860万评论,但覆盖范围稀疏且特定于城市。对于本地商业研究很有价值,但对于大型可推广模型而言并不是最佳的。

为Recsys 2018发布,该数据集有助于分析短期和顺序的听力行为。但是,它缺乏长期的历史和明确的反馈。

一个大量的广告点击数据集,展示了工业规模的交互。虽然数量令人印象深刻,但它提供了最小的元数据,并优先考虑点击率(CTR)而不是推荐逻辑。

Turing Post Avi Chawla Turing PostAvi Chawla