在联邦强化学习(FRL)中,代理人旨在与每个代理商在其本地环境中行动而无需交换原始轨迹时进行协作。FRL的现有方法(a)都不提供任何容忍度的保证(针对行为不当的代理商),或(b)依靠可信赖的中央代理(单点失败)来汇总更新。我们提供了第一个分散的拜占庭式耐受性FRL法。为此,我们首先提出了一种新的集中式拜占庭故障稳定性政策梯度(PG)算法,该算法仅依赖于非耐受性PG的假设标准来改善现有方法。然后,作为我们的主要贡献,我们展示了如何利用强大的聚合和拜占庭式共识方法的结合,以消除对受信任的中央实体的需求。由于我们的结果代表了拜占庭式耐断层的非征料非凸优化的第一个样本复杂性分析,因此我们的技术贡献可能具有独立的利益。最后,我们为常见的RL环境证实了我们的理论结果,证明了分散的联邦W.R.T.的加速。对各种拜占庭攻击的参与代理的数量和弹性。
主要关键词