Loading...
机构名称:
¥ 1.0

这里要注意的关键点是,从环境中观察到的{o n}并不是马尔可夫。这是大多数情况下的现实,我们施加的马尔可夫模型是一个近似值。这是明确的,例如,当所使用的模型是一个更复杂问题的离散或有限维度漫画时,或者是因为对分析易于的动力学施加的方便近似值仅是近似值(例如,在受控队列中跨越时间的指数性)。还要注意,上面的代理动力学(1.1)(包括代理状态的选择)是我们假设模型时强加的设计选择。在[1,2]中,明确标识为。通常,问题的物理学可能决定了一种自然选择,但是如果不是这样,则需要一种原则上的方法。这个设计问题是我们计划解决的主要问题,在准备理论背景之后,我们在这项工作后来提出了这一问题。该理论是将模型(1.1)作为给定的。

在非马克维亚环境中的强化学习

在非马克维亚环境中的强化学习PDF文件第1页

在非马克维亚环境中的强化学习PDF文件第2页

在非马克维亚环境中的强化学习PDF文件第3页

在非马克维亚环境中的强化学习PDF文件第4页

在非马克维亚环境中的强化学习PDF文件第5页