摘要 - 在本文中,我们使用原始加固学习(RL)方法提出了一种基于学习的非线性模型预测控制器(NMPC),以学习NMPC方案的最佳权重。控制器用作深度预期SARSA的当前动作值函数,其中通常用次级NMPC获得的后续动作值函数与神经网络(NN)近似。在现有方法方面,我们添加了NN的输入NMPC学习参数的当前值,以便网络能够近似行动值函数并稳定学习性能。另外,在使用NN的情况下,实时计算负担大约减半而不会影响闭环性能。此外,我们将梯度时间差异方法与参数化的NMPC结合在一起,作为预期的SARSA RL方法的函数近似函数,以克服函数近似中存在非线性时克服潜在参数的差异和不稳定性问题。仿真结果表明,所提出的方法在没有不稳定性问题的情况下收敛到本地最佳解决方案。
学习做出时间预测是强化学习算法的关键组成部分。从在线数据流学习预测的主要范式是时间差异(TD)学习。在这项工作中,我们引入了一种新的TD算法 - SWIFTTD,该算法比存在算法更准确地预测。SwiftTD将真实的在线TD(λ)与每个功能尺寸的参数,阶梯尺寸优化,对资格矢量的更新上的绑定和阶梯型衰减相结合。每个功能的阶梯尺寸参数和阶梯大小的优化通过增加重要信号的台阶参数并减少无关信号来证明信用分配。更新到eLigility Vector的界限可防止过度校正。阶梯尺寸衰减如果太大,则降低了阶梯尺寸的参数。我们基于Atari预测基准测试了SwiftTD,并表明即使使用线性函数近似,它也可以学习准确的预测。我们进一步表明,SwiftTD在其广泛的超参数中表现良好。最后,我们证明SwiftTD可以用于神经网络的最后一层以提高其性能。