分散的联合政策梯度，具有拜占庭断层耐受性和快速收敛__

分散的联合政策梯度，具有拜占庭断层耐受性和快速收敛

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

分散的联合政策梯度，具有拜占庭断层耐受性和快速收敛

¥ 1.0

热度

在联邦强化学习（FRL）中，代理人旨在与每个代理商在其本地环境中行动而无需交换原始轨迹时进行协作。FRL的现有方法（a）都不提供任何容忍度的保证（针对行为不当的代理商），或（b）依靠可信赖的中央代理（单点失败）来汇总更新。我们提供了第一个分散的拜占庭式耐受性FRL法。为此，我们首先提出了一种新的集中式拜占庭故障稳定性政策梯度（PG）算法，该算法仅依赖于非耐受性PG的假设标准来改善现有方法。然后，作为我们的主要贡献，我们展示了如何利用强大的聚合和拜占庭式共识方法的结合，以消除对受信任的中央实体的需求。由于我们的结果代表了拜占庭式耐断层的非征料非凸优化的第一个样本复杂性分析，因此我们的技术贡献可能具有独立的利益。最后，我们为常见的RL环境证实了我们的理论结果，证明了分散的联邦W.R.T.的加速。对各种拜占庭攻击的参与代理的数量和弹性。

添加pdf代下载 VIP点击下载文件