Loading...
机构名称:
¥ 1.0

当一方采取另一方的行动,导致利益冲突时,就会出现主要代理问题。经济文献已经广泛研究了主要代理问题,最近的工作将其扩展到了更复杂的方案 - 诸如马尔可夫决策过程(MDPS)。在此过程中,我们通过调查预算限制下的奖励成型如何改善委托人的效用,进一步探讨了这一研究。我们研究了两人Stackelberg游戏,在该游戏中,校长和代理商具有不同的奖励功能,而代理商为两个玩家选择了MDP政策。委托人向代理人提供额外的奖励,代理人自私地选择其政策以最大程度地提高奖励,这是原始和提供的奖励的总和。我们的结果确定了问题的NP硬度,并为两类的概述提供多项式近似算法:随机树和具有有限范围的确定性决策过程。

MDPS中的主要代理奖励成型

MDPS中的主要代理奖励成型PDF文件第1页

MDPS中的主要代理奖励成型PDF文件第2页

MDPS中的主要代理奖励成型PDF文件第3页

MDPS中的主要代理奖励成型PDF文件第4页

MDPS中的主要代理奖励成型PDF文件第5页

相关文件推荐

2022 年
¥1.0
2025 年
¥1.0
2024 年
¥1.0
2025 年
¥8.0
2025 年
¥3.0
2024 年
¥1.0
2025 年
¥1.0
1900 年
¥1.0
2024 年
¥9.0
2025 年
¥3.0
2025 年
¥1.0
2023 年
¥2.0
2024 年
¥1.0
2024 年
¥1.0
2023 年
¥6.0
2019 年
¥1.0
2023 年
¥10.0
1900 年
¥1.0
2023 年
¥2.0
2025 年
¥1.0
2024 年
¥1.0
2024 年
¥2.0
2021 年
¥1.0
1900 年
¥1.0