详细内容或原文请订阅后点击阅览
推荐系统:使用不确定性探索未知领域
了解探索-利用权衡是什么,以及如何使用模型的不确定性以明智的方式探索新项目。
来源:Another Datum这是与 Inbar Naor 的联合帖子。最初发表于 engineering.taboola.com。
这是与 Inbar Naor 的联合帖子。最初发表于 engineering.taboola.com。 Inbar Naor engineering.taboola.com现在我们知道了存在哪些不确定性类型,并了解了一些对它们进行建模的方法,我们可以开始讨论如何在我们的应用程序中使用它们。
什么是不确定性类型 了解了一些对它们进行建模的方法在这篇文章中,我们将介绍探索-利用问题,并向您展示不确定性如何帮助解决它。我们将重点介绍推荐系统中的探索,但同样的想法可以应用于强化学习的许多应用 - 自动驾驶汽车,机器人等。
问题设置
推荐系统的目标是推荐用户可能认为相关的项目。在 Taboola,相关性通过点击来表达:我们显示一个包含内容推荐的小部件,用户选择是否要点击其中一个项目。
用户点击某个项目的概率称为点击率(CTR)。如果我们知道所有项目的点击率,那么推荐哪些项目的问题就很简单:只需推荐点击率最高的项目即可。
点击率问题是我们不知道点击率是多少。我们有一个估计它的模型,但它显然并不完美。造成不完美的部分原因是推荐系统固有的不确定性类型,我们在本系列的第一篇文章中讨论过这个问题。
本系列的第一篇文章开发与探索的权衡
所以现在我们面临一个具有挑战性的情况——我们在日常生活中都很熟悉这种情况:想象一下你刚走进一家冰淇淋店。你现在面临一个关键的决定——在 30 种口味中你只能选择一种!
你可以采用两种策略:要么选择你已经知道是最好的最喜欢的口味;要么探索你从未尝试过的新口味,也许会找到一种新的最佳口味。
让我们探索探索方法
汤普森抽样🐎