Loading...
机构名称:
¥ 1.0

在许多多代理交互的环境中,每个代理的最佳选择在很大程度上取决于其他代理的选择。这些耦合的相互作用可以用一般和差分博弈很好地描述,其中玩家有不同的目标,状态在连续的时间中演变,最佳博弈可以用许多均衡概念之一来表征,例如纳什均衡。问题通常允许多重均衡。从这种博弈中的单个代理的角度来看,这种多重解决方案可能会带来其他代理行为方式的不确定性。本文提出了一个通用框架,通过推理其他代理所追求的均衡来解决均衡之间的歧义。我们在多人人机导航问题的模拟中演示了这个框架,得出两个主要结论:首先,通过推断人类所处的平衡状态,机器人能够更准确地预测轨迹;其次,通过发现并使自己适应这种平衡状态,机器人能够降低所有玩家的成本。

基于推理的一般和差分博弈策略调整

基于推理的一般和差分博弈策略调整PDF文件第1页

基于推理的一般和差分博弈策略调整PDF文件第2页

基于推理的一般和差分博弈策略调整PDF文件第3页

基于推理的一般和差分博弈策略调整PDF文件第4页

基于推理的一般和差分博弈策略调整PDF文件第5页

相关文件推荐

2022 年
¥1.0
2021 年
¥1.0
2022 年
¥1.0
2023 年
¥1.0
2021 年
¥1.0
2021 年
¥1.0
2022 年
¥1.0
2022 年
¥1.0
2024 年
¥1.0
2023 年
¥1.0
2023 年
¥1.0
2020 年
¥1.0
2021 年
¥1.0
2024 年
¥2.0
2024 年
¥2.0
2023 年
¥1.0
2024 年
¥1.0
2023 年
¥1.0
2024 年
¥2.0
2025 年
¥1.0