当一方采取另一方的行动,导致利益冲突时,就会出现主要代理问题。经济文献已经广泛研究了主要代理问题,最近的工作将其扩展到了更复杂的方案 - 诸如马尔可夫决策过程(MDPS)。在此过程中,我们通过调查预算限制下的奖励成型如何改善委托人的效用,进一步探讨了这一研究。我们研究了两人Stackelberg游戏,在该游戏中,校长和代理商具有不同的奖励功能,而代理商为两个玩家选择了MDP政策。委托人向代理人提供额外的奖励,代理人自私地选择其政策以最大程度地提高奖励,这是原始和提供的奖励的总和。我们的结果确定了问题的NP硬度,并为两类的概述提供多项式近似算法:随机树和具有有限范围的确定性决策过程。