可证明有效的离线多智能体强化...__

可证明有效的离线多智能体强化...

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

可证明有效的离线多智能体强化...

¥ 1.0

热度

逐点集中是计算每个状态-动作对的置信区间的标准技术 [Azar 等人，2017 年；Liu 等人，2021 年；Xie 等人，2021b 年；Cui 和 Du，2022 年]。然而，由于 NE 可以是混合策略，因此对 MARL 的直接扩展会受到多智能体诅咒的影响。与逐点集中技术不同，策略集中直接估计每个策略，这允许更严格的置信区间，从而避免对联合动作空间的依赖。我们在第 1.2 节中给出了技术概述。此外，我们表明策略置信界限始终是一个凸函数，因此经验最佳响应策略始终可以是确定性策略，这对计算效率至关重要。

添加pdf代下载 VIP点击下载文件