5对于连续的动作问题,已经提出了各种探索方法,此处引入的参数噪声的版本是文献中经常采用的参数噪声,并允许特别干净的分析结果(参见Plappert等。(2017)和Yang等。 (2021)进行全面调查)。 6请注意,定义2并不排除完全知道要近似函数的情况。 因此,结果包括代理商知道其价值功能并遵循简单启发式时更新其收益的情况,将其作为对手的当前策略的输入。(2017)和Yang等。(2021)进行全面调查)。6请注意,定义2并不排除完全知道要近似函数的情况。因此,结果包括代理商知道其价值功能并遵循简单启发式时更新其收益的情况,将其作为对手的当前策略的输入。