DGPO

File

2025-03-03 机构名称:

全面的学术信息系统-SIIA

3学术生产CH HumanIndex 2008-2021 4学术生产SCIC 2000-2017 5项目DGPO 2018-2022 6 Tutory 2008-2025 7 2008-2021

查看详细

File

2025-02-25 机构名称:

全面的学术信息系统 - SIIA- UNAAM

3学术生产CH HumanIndex 2008-2021 4学术生产SCIC 2000-2017 5项目DGPO 2018-2022 6 Tutory 2008-2025 7 2008-2021

查看详细

File

2025-02-22 机构名称:

全面的学术信息系统-SIIA

3学术生产CH HumanIndex 2008-2021 4学术生产SCIC 2000-2017 5项目DGPO 2018-2022 6 Tutory 2008-2025 7 2008-2021

查看详细

File

2024-01-09 机构名称:

arxiv：2207.05631v3 [cs.lg] 2024年1月5日

大多数强化学习算法都寻求解决给定任务的单一光学策略。但是，学习各种解决方案通常是有价值的，例如，使代理商与用户更具吸引力的互动，或者证明政策的鲁棒性使人意外的扰动。我们提出了多样性指导的政策优化（DGPO），这是一种在政策算法中，发现了解决给定任务的多种策略。与先前的工作不同，它通过在一次运行中训练的共享策略网络来实现这一目标。特定于此，我们根据信息理论多样性目标设计了固有的奖励。我们的最终目标交替限制了策略的多样性和外部奖励。我们通过将其作为概率推理任务施放，并使用策略迭代来最大化派生的下限，从而解决了受限的优化问题。实验结果表明，我们的方法有效地发现了各种强化学习任务中的各种策略。与基线方法相比，DGPO获得了可比的奖励，同时发现了更多不同的策略，并且通常具有更好的样本效率。

查看详细

XiaoMi-AI文件搜索系统

DGPO

全面的学术信息系统-SIIA

全面的学术信息系统 - SIIA- UNAAM

全面的学术信息系统-SIIA

arxiv：2207.05631v3 [cs.lg] 2024年1月5日

按机构统计排名前十媒体

按照发布年份统计数据

XiaoMi-AI