多代理增强学习中的投影 - 最佳单调值函数分解__

多代理增强学习中的投影 - 最佳单调值函数分解

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

多代理增强学习中的投影 - 最佳单调值函数分解

¥ 1.0

热度

价值函数分解已成为在培训和分散执行范式下进行合作多代理增强学习的普遍方法。这些算法中的许多算法通过使用代理实用程序的单调混合函数来分配最佳的关节作用功能，以确保分散决策的关节和局部选择之间的相干性。尽管如此，利用单调混合函数也会引起表示局限性，并且在单调函数类别上找到无约束的混合函数的最佳投影仍然是一个开放的问题。在本文中，我们提出了QPRO，该QPRO对价值函数分解的最佳投影问题置于遗憾的是对不同过渡的投影权重的最小化。可以使用Lagrangian乘数方法放松和解决此优化问题，以遵守封闭形式的最佳投影权重，在该方法中，我们通过最大程度地减少预期收益的遗憾政策，从而缩小最佳和受限单调混合功能之间的差距，从而增强单调值函数分支。我们的实验证明了我们方法的有效性，表明在具有非单调价值函数的环境中的性能提高了。

添加pdf代下载 VIP点击下载文件

多代理增强学习中的投影 - 最佳单调值函数分解

主要关键词

最佳的过渡的 QPRO 关节提高投影代理实用程序单调函数局限性函数的开放的增强最小化分散价值函数算法仍然是混合学习的最佳方法有效性分解的性能提高问题遗憾相干性分散执行值函数

多代理增强学习中的投影 - 最佳单调值函数分解PDF文件第1页

多代理增强学习中的投影 - 最佳单调值函数分解PDF文件第2页

多代理增强学习中的投影 - 最佳单调值函数分解PDF文件第3页

可下载资源数量

已经购买

下载数量：1

多代理增强学习中的投影 - 最佳单调值函数分解

多代理增强学习中的投影 - 最佳单调值函数分解

相关文件推荐

合作多代理增强学习中的最佳任务概括

基于LLM的多代理增强学习

adaptaug：多代理增强学习

多代理增强 - 学习（MARL）

库存管理的合作多代理增强学习

基于GNN的多代理增强学习范式

通过等级协调的多代理增强学习驻扎

自动驾驶汽车的多代理增强学习

台式：基准测试多代理增强学习

稀疏奖励的合作多代理增强学习

增强学习

可扩展的多代理离线增强学习和信息的作用

增强学习

增强学习

二元增强学习

样本效率强大的多代理增强学习...

结构化符号音乐生成的多代理增强学习

通过增强学习

增强学习

逆增强学习

自我监督的神经元分割，多代理增强学习

增强亚最佳轨迹缝线

多代理深钢筋学习

无模型增强学习

通过微小的增强学习

离线增强学习

增强学习中的评估

进化增强学习

多代理强化学习

与专家的自主代理增强

XiaoMi-AI