进化策略(ES)已成为一种竞争性的替代方法,用于无模型的强化学习,在Mujoco和Atari等任务中展示示例性能。值得注意的是,它们在场景 - 具有不完美奖励功能的情况下发光,这对于浓厚的奖励信号可能难以捉摸的现实应用程序非常宝贵。然而,ES中的一个固有假设(所有输入特征都是任务 - 相关的)都会挑战,尤其是在现实世界中常见的不相关特征时。这项工作仔细检查了这一限制,尤其是专注于自然进化策略(NES)变体。我们提出了Nesht,这是一种新颖的方法,该方法将坚硬的阈值(HT)与NES融为一体,以使其具有稀疏性,从而确保仅采用相关特征。在严格的分析和经验测试的支持下,Nesht证明了其在减轻无关的遗产和散发诸如嘈杂的Mujoco和Atari任务等复杂决策问题中的陷阱方面的希望。我们的代码可在https://github.com/cangcn/nes-ht上找到。
主要关键词