点击购买,资源将自动在新窗口打开.
获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
4 UCB使用arg max a ˆ q t(a) + b,其中b是奖励项。考虑b = 5。这将使对经验奖励的算法乐观,但仍可能导致这样的算法,从而使Suer linear遗憾。
主要关键词