Loading...
机构名称:
¥ 1.0

马尔可夫决策过程(MDP)是我们解决强化学习问题的框架。一组状态s,动作A和奖励有限元素构成了框架的主要组成部分。在时间步骤t上,环境具有状态s,代理商根据其观察结果选择了动作。环境现在更改为新状态S t +1,代理接收R t +1。这将继续t = 0,1,。。。,t时终端状态在时间t处发生。由于国家和奖励的有限要素,我们可以根据先前的状态建立对它们的概率分布,并在等式(1)中显示的动作。

Q功能近似与径向基础...

Q功能近似与径向基础...PDF文件第1页

Q功能近似与径向基础...PDF文件第2页

Q功能近似与径向基础...PDF文件第3页

Q功能近似与径向基础...PDF文件第4页

Q功能近似与径向基础...PDF文件第5页

相关文件推荐

2023 年
¥1.0
2023 年
¥2.0