摘要:贝叶斯优化(BO)在大量控制应用程序中对昂贵的黑盒功能进行全局优化的数据效果表现出了巨大的希望。传统的BO是无衍生的,因为它仅依赖于性能函数的观察来找到其最佳。最近,已经提出了所谓的第一阶BO方法,该方法还将绩效函数的梯度信息进一步加速收敛。一阶BO方法主要利用标准采集功能,而间接使用内核结构中的梯度信息来学习性能功能的更准确的概率替代物。在这项工作中,我们提出了一种直接利用性能函数(Zeroth-order)及其相应梯度(第一阶)评估的梯度增强的BO方法。为此,提出了一个新型的基于梯度的采集功能,可以识别性能优化问题的固定点。然后,我们利用从多目标优化的想法来制定一种e显策略,以找到最佳贸易点的查询点,这些查询点是传统的Zeorth-rorder-rorde获取功能与拟议的基于梯度的采集函数之间的。我们展示了如何使用拟议的获取 - 增强梯度增强的BO(AEGEBO)方法来加速基于策略的增强型学习的收敛,通过将噪声观察结果结合到可以直接从闭环数据中估算的奖励函数及其梯度的噪声。将AEGBO的性能与传统的BO和基准LQR问题上众所周知的增强算法进行了比较,我们始终如一地观察到在有限的数据预算中显着提高了性能。
主要关键词