摘要 - 最近,已经利用了在线优化方法来开发在线非策略控制框架,该框架能够在存在非主张的对抗性干扰的情况下学习在线梯度扰动控制器。有趣的是,在未知干扰存在下使用在线优化并不是一个全新的想法,并且类似的算法框架称为回顾性成本自适应控制(RCAC)已经出现在2000年代的对照文献中。在这封信中,我们介绍了在线非障碍控制与RCAC之间的联系,并讨论了这两种方法的不同优势:即,RCAC能够通过使用目标模型来稳定未知的Unstable植物,而在线非稳定控制则可以证明,在稳定政策的情况下,在线非稳定控制享受了接近最佳的遗憾界限。我们进一步构成了这两种方法的整合。我们希望我们的见解将有助于开发补充两种方法的新算法。