Loading...
机构名称:
¥ 2.0

决策通常需要平衡立即满足与长期利益。在增强学习(RL)中,这种平衡行为受到时间差异的影响,该行为量化了未来奖励的贬值。事先的研究表明,与RL中使用的常规指数折扣相比,人类决策与双曲线折扣更加与双曲线折扣保持一致。随着人造代理变得更加先进和普遍,尤其是在与人类的多代理设置中,对适当的折扣模型的需求变得至关重要。尽管已经提出了单质学习的双曲线折扣,但其在多代理增强学习中的潜力(MARL)仍未开发。我们在MAL中介绍和制定双曲线折扣,在各种框架上建立理论和实践基础,包括独立学习,集中策略差异和价值分解方法。我们评估了多余的合作任务的双曲线折扣,将其与指数折扣基线进行了比较。我们的结果表明,双曲线折扣在60%的方案中获得了更高的回报,并且在95%的任务中以指数折扣的速度表现出色,并在稀疏奖励和协调密集的环境方面得到了显着改善。这项工作为高级多代理系统开发的强大决策过程开辟了新的途径。

多代理增强学习中的双曲线折扣

多代理增强学习中的双曲线折扣PDF文件第1页

多代理增强学习中的双曲线折扣PDF文件第2页

多代理增强学习中的双曲线折扣PDF文件第3页

多代理增强学习中的双曲线折扣PDF文件第4页

多代理增强学习中的双曲线折扣PDF文件第5页