3学术生产CH HumanIndex 2008-2021 4学术生产SCIC 2000-2017 5项目DGPO 2018-2022 6 Tutory 2008-2025 7 2008-2021
3学术生产CH HumanIndex 2008-2021 4学术生产SCIC 2000-2017 5项目DGPO 2018-2022 6 Tutory 2008-2025 7 2008-2021
3学术生产CH HumanIndex 2008-2021 4学术生产SCIC 2000-2017 5项目DGPO 2018-2022 6 Tutory 2008-2025 7 2008-2021
大多数强化学习算法都寻求解决给定任务的单一光学策略。但是,学习各种解决方案通常是有价值的,例如,使代理商与用户更具吸引力的互动,或者证明政策的鲁棒性使人意外的扰动。我们提出了多样性指导的政策优化(DGPO),这是一种在政策算法中,发现了解决给定任务的多种策略。与先前的工作不同,它通过在一次运行中训练的共享策略网络来实现这一目标。特定于此,我们根据信息理论多样性目标设计了固有的奖励。我们的最终目标交替限制了策略的多样性和外部奖励。我们通过将其作为概率推理任务施放,并使用策略迭代来最大化派生的下限,从而解决了受限的优化问题。实验结果表明,我们的方法有效地发现了各种强化学习任务中的各种策略。与基线方法相比,DGPO获得了可比的奖励,同时发现了更多不同的策略,并且通常具有更好的样本效率。