一个天真的答案是定义一个新的奖励函数,该功能是代理人的奖励功能的总和(分别为每个州行动对),并计算此汇总奖励功能的最佳策略;这样的政策将保证最大的功利主义社会福利。这种方法具有重大的缺点,因为它对奖励的仿射转换很敏感,因此,例如,如果我们将其中一个奖励函数加倍,则总体最佳策略可能会改变。这是一个问题,因为每个代理人的个人最佳策略都是(积极)的奖励转变,因此,尽管有可能通过观察他们的行动来恢复奖励函数,从而导致代理人的最佳政策,但不可能区分彼此相互转变的奖励函数。更广泛地说,由于缺乏普遍规模,经济学家长期以来一直对实用程序的人际比较持怀疑态度,这在我们的背景下尤其相关。因此,强烈首选仿射转换的聚合方法。