摘要 - 在本文中,我们使用原始加固学习(RL)方法提出了一种基于学习的非线性模型预测控制器(NMPC),以学习NMPC方案的最佳权重。控制器用作深度预期SARSA的当前动作值函数,其中通常用次级NMPC获得的后续动作值函数与神经网络(NN)近似。在现有方法方面,我们添加了NN的输入NMPC学习参数的当前值,以便网络能够近似行动值函数并稳定学习性能。另外,在使用NN的情况下,实时计算负担大约减半而不会影响闭环性能。此外,我们将梯度时间差异方法与参数化的NMPC结合在一起,作为预期的SARSA RL方法的函数近似函数,以克服函数近似中存在非线性时克服潜在参数的差异和不稳定性问题。仿真结果表明,所提出的方法在没有不稳定性问题的情况下收敛到本地最佳解决方案。
• JP 协议的范围,重点关注实现 CLCPA 目标的不同途径的成本、系统影响和客户账单影响。量化其他影响(健康、就业、GDP 等)需要大量额外分析和资源。研究将包括对其他环境和经济影响的定性讨论。