点击购买,资源将自动在新窗口打开.
获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
马尔可夫决策过程(MDP)是我们解决强化学习问题的框架。一组状态s,动作A和奖励有限元素构成了框架的主要组成部分。在时间步骤t上,环境具有状态s,代理商根据其观察结果选择了动作。环境现在更改为新状态S t +1,代理接收R t +1。这将继续t = 0,1,。。。,t时终端状态在时间t处发生。由于国家和奖励的有限要素,我们可以根据先前的状态建立对它们的概率分布,并在等式(1)中显示的动作。
主要关键词