这项工作介绍了用于应用强化学习(RL)的工具链,特别是在安全至关重要的现实世界环境中的深层确定性政策梯度(DDPG)算法。作为示例性应用,在均质电荷压缩点火(HCCI)模式下的单缸内燃机测试台上证明了瞬态载荷控制,这表明高热E FFI且发电率较低。但是,HCCI由于其非线性,自回归和随机性质而对传统控制方法构成了挑战。rl提供了可行的解决方案,但是,在应用于HCCI时,必须解决安全问题(例如压力上升率过高)。单个不合适的控制输入会严重损坏发动机或引起失火并关闭。此外,不知道工作限制,必须通过实验确定。为了减轻这些风险,实施了基于K-Neareb最邻居算法的实时安全监控,从而可以与Testbench进行安全互动。当RL代理通过与测试板互动来学习控制策略时,该方法的可行性被证明。均方根误差为0。1374 bar用于指定的平均e ff效力压力,可与文献中的基于神经网络的控制器相当。通过调整代理商的政策增加乙醇能源份额,在维持安全性的同时促进可再生燃料的使用,从而进一步证明了工具链的灵活性。这种RL方法解决了将RL应用于安全至关重要的现实环境的长期挑战。开发的工具链具有其适应性和安全机制,为RL在发动机测试板和其他关键性设置中的未来适用性铺平了道路。
主要关键词