以人为本的民主 AI 机制设计

在我们最近发表在《自然人类行为》杂志上的论文中,我们提供了一个概念验证,即深度强化学习 (RL) 可用于在简单的游戏中找到人们会以多数票投票的经济政策。因此,该论文解决了人工智能研究中的一个关键挑战——如何训练符合人类价值观的人工智能系统。

来源:DeepMind - 新闻与博客

在我们最近发表在《自然人类行为》杂志上的论文中,我们提供了一个概念验证,即深度强化学习 (RL) 可用于在简单游戏中寻找人们会以多数票投票的经济政策。因此,该论文解决了人工智能研究中的一个关键挑战 - 如何训练符合人类价值观的人工智能系统。

在我们最近发表在《自然人类行为》杂志上的 论文 论文 中,我们提供了一个概念验证,即深度强化学习 (RL) 可用于在简单游戏中寻找人们会以多数票投票的经济政策。因此,该论文解决了人工智能研究中的一个关键挑战 - 如何训练符合人类价值观的人工智能系统。

想象一下,一群人决定集中资金进行投资。投资获得回报,并获得利润。收益应该如何分配?一个简单的策略是将回报平均分配给投资者。但这可能不公平,因为有些人的贡献比其他人多。或者,我们可以按照每个人最初投资的规模比例偿还他们。这听起来很公平,但如果人们一开始的资产水平就不同呢?如果两个人贡献了相同的金额,但一个人只贡献了他们可用资金的一小部分,而另一个人则贡献了全部,他们应该获得相同份额的收益吗?

如何在经济和社会中重新分配资源的问题长期以来一直引起哲学家、经济学家和政治学家的争议。在这里,我们使用深度 RL 作为试验台来探索解决这个问题的方法。

自由主义者

当我们研究这些新参与者的投票时,我们发现深度 RL 设计的政策比基线更受欢迎。事实上,当我们进行一项新实验,要求第五位人类玩家担任裁判的角色,并训练他们尝试最大化投票时,这位“人类裁判”实施的政策仍然不如我们的代理的政策受欢迎。

相对 绝对