通过增强学习(RL)进行拖曳减少的主动流控制(RL)是在带有涡旋脱落的层流方向的二维方形悬崖体后进行的。由神经网络参数参数的控制器经过训练,以驱动操纵不稳定流量的两次吹和吸气喷气机。具有完全可观察性的RL(传感器在尾流中)成功地发现了一种控制策略,该策略通过抑制涡流脱落而降低阻力。但是,当控制器接受部分测量(体内传感器)训练时,观察到不可忽略的性能降解(减少50%)。为了减轻这种效果,我们提出了一种能量,动态的,最大的熵RL控制方案。首先,提出了基于能量的奖励功能,以优化控制器的能量消耗,同时最大程度地减少阻力。第二,控制器的培训是通过由当前和过去的测量和动作组成的增强状态训练的,可以将其作为非线性自回归外源模型进行配制,以减轻部分可观察性问题。使用第三,最大熵RL算法(软演员评论家和截短的分位数评论家),以样本效果的方式促进探索和剥削,并在挑战性的部分测量案例中发现近乎最佳的策略。稳定涡流脱落是在人体后部仅使用表面压力测量的近唤醒中实现的,从而导致与唤醒传感器相似的阻力减小。提出的方法使用部分测量对现实配置开辟了新的动态流量控制途径。
主要关键词