Loading...
机构名称:
¥ 1.0

评估深层增强学习(MARL)算法在训练和敏感性对其他药物行为的训练和敏感性方面变得复杂。,我们通过将每个MARL算法作为元策略构建元游戏评估框架,并反复对来自不同随机种子产生的元策略组合进行反复对正常形式的经验游戏进行采样。每个经验游戏都捕获了种子跨种子的自我玩法和交叉游戏。这些经验游戏为在各种游戏分析统计中构建采样分布的基础。我们使用这种方法来评估一类谈判游戏的最先进的MARL算法。从有关独立收益,社会福利和经验最佳响应图的统计数据中,我们发现了自我播放,基于人群,免费模型和基于模型的MARL方法之间的战略关系。我们还研究运行时搜索作为元战略运营商的效果,并通过元游戏分析查找元构造的搜索版本通常会提高性能。

深层增强学习的元游戏评估框架

深层增强学习的元游戏评估框架PDF文件第1页

深层增强学习的元游戏评估框架PDF文件第2页

深层增强学习的元游戏评估框架PDF文件第3页

深层增强学习的元游戏评估框架PDF文件第4页

深层增强学习的元游戏评估框架PDF文件第5页

相关文件推荐