强化学习(RL)在各种应用中显示出巨大的潜力;但是,它在复杂的工业过程中的应用尚待广泛探索。这项工作旨在通过概念研究证明RL在过程工程和控制中的潜力,以证明RL在催化反应器系统中的实时优化(RTO)的应用。目的是在确保过程限制的同时最大化高价值烃的产生。使用了合适的参与者-Critic RL体系结构,并将结果与基于数学优化的基于求解器的基准Mark进行了比较。该研究还评估了Microsoft Project Bonsai的功能,该计划是设计自动系统的AI平台。这项工作的主要贡献包括证明RL在化学过程中的RL应用程序中的应用,分解了RL的适应性和快速推理时间,以及在政策网络培训期间提供处理约束的方法。结果表明,RL可以找到与基于优化的基准相当的可行解决方案。
主要关键词