在稀疏奖励任务中学习有效的策略是加强学习的基本挑战之一。这在多代理环境中变得极为困难,因为对多种代理的同意学习引起了非平稳性问题,并大幅增加了关节状态空间。现有作品试图通过经验共享来实现多代理的合作。但是,从大量共享经验中学习是不具备的,因为在稀疏的奖励任务中只有少数高价值状态,这可能会导致大型多区域系统中的维度诅咒。本文着重于稀疏的多项式合作任务,并提出了一种有效的体验共享方法,即MAST的选修课(MASL),以通过重新获得其他代理商的有价值的经验来促进样本良好的培训。MASL采用了一种基于倒退的选择方法来识别团队奖励的高价值痕迹,基于这些召回痕迹在代理之间生成并共享某些召回痕迹,以激发有效的外观。此外,MASL有选择地考虑来自其他代理商的信息,以应对非平稳性问题,同时为大型代理提供有效的培训。实验结果表明,与最先进的合作任务中的最先进的MARL Al-Al-gorithms相比,MASL显着提高了样本的效率。
主要关键词