合作通常会增加人类和其他物种的福利,但是激励代理人合作可能很困难。囚犯的困境提炼了这种社会困境的基本激励措施和回报:帕累托有效的结果是在主导的策略中,因此每个人都有强大的动力来自由骑行对另一个玩家。从理论上讲,众所周知,未来互动或重复的可能性是建立自私者之间合作的可能性:未来的遭遇可通过双关语威胁来激励合规性。然而,由于有无数的均衡,这是足够高的差异因素和不合作的平衡持续存在,因此研究如何发挥重复囚犯的困境是一种经验性练习。庞大的实验文献(请参阅下面的文献评论)解决了人类参与者合作的决定因素,形式和水平。我们研究自学算法如何发挥重复的囚犯困境。具体来说,我们将算法置于实验室实验中实施的相同经济环境中,并使用用于研究人类行为的工具分析其范围(Dal B´o and Fr´echette,2018年)。与人类一样,我们对决定因素,形式和合作水平感兴趣。在这些维度中的每个方面,我们都借鉴了实验文献,以了解社会困境中自学算法与人类之间的相似性和差异。首先,我们检查塑造人类合作的决定因素是否也影响算法合作。第二,我们询问算法采用哪种策略,并将其与人类的算法进行对比。最后,我们比较了人类与算法之间的合作水平,并询问哪些因素会导致差异。了解自学算法的行为至关重要(Rahwan等,2019)。毕竟,算法向人类提供建议或越来越多地决定他们。例如,算法可以自主驾驶汽车,调整金融投资组合,检测欺诈或设定价格等。某些自主算法在战略环境中运行,并与其他自学代理反复互动。这可能发生在协调问题中;例如,在选择流量路线或
主要关键词