马尔可夫游戏是一个流行的强化学习框架,用于在动态环境中对竞争者进行建模。然而,马尔可夫游戏上的大多数现有作品都集中在计算游戏之间的不确定相互作用后,但忽略环境模型的不确定性,在实际情况下,环境模型无处不在。在这项工作中,我们开发了一种理论解决方案,以使用环境模型不确定性马可福音游戏。具体来说,我们提出了一个具有环境模型不确定性的马尔可夫游戏的新的且可进行的鲁棒相关均衡概念。,我们证明了鲁棒相关的平衡具有简单的修改结构,其均衡的表征在很大程度上取决于环境模型的不确定性。此外,我们提出了第一个用于计算这种稳健相关平衡的完全分类的随机算法。我们的分析证明,该算法达到了多样性发作的复杂性E O(Sa 2 H 5 ϵ −2),用于计算近似稳健相关的平衡与精确度。关键字:强大的马尔可夫游戏,模型不确定性,强大的相关平衡,加固学习
主要关键词