经典的价值迭代方法并非应用于具有连续状态和动作的环境。对于此类环境,状态和动作通常被离散化,从而导致计算复杂性的指数增加。在本文中,我们提出了连续拟合的价值迭代(CFVI)。该算法可以通过已知的动力学模型为连续状态和动作提供动态编程。利用连续时间公式,可以为非线性控制 - 官能动态提供最佳策略。此封闭形式解决方案可以使价值迭代的有效扩展到连续的环境。我们在非线性控制实验中表明,动态编程解决方案获得了与模拟中深层执行学习方法相同的定量性能,但是当转移到物理系统中时会进行。CFVI获得的策略对于动态的变化更为强大,尽管仅使用确定模型,并且没有明确将鲁棒性纳入优化。物理系统的视频可在https://网站上获得。google.com/view/value-iteration。
主要关键词