Loading...
机构名称:
¥ 2.0

4 UCB使用arg max a ˆ q t(a) + b,其中b是奖励项。考虑b = 5。这将使对经验奖励的算法乐观,但仍可能导致这样的算法,从而使Suer linear遗憾。

讲座12:快速加固学习

讲座12:快速加固学习PDF文件第1页

讲座12:快速加固学习PDF文件第2页

讲座12:快速加固学习PDF文件第3页

讲座12:快速加固学习PDF文件第4页

讲座12:快速加固学习PDF文件第5页