多智能体强化学习中的新兴易货行为

在我们最近的论文中,我们探讨了深度强化学习 (deep RL) 代理群体如何学习微观经济行为,例如商品的生产、消费和交易。我们发现人工智能代理学会对生产、消费和价格做出经济合理的决策,并对供需变化做出适当的反应。

来源:DeepMind - 新闻与博客

在我们最近的论文中,我们探讨了深度强化学习 (deep RL) 代理群体如何学习微观经济行为,例如商品的生产、消费和交易。我们发现人工智能代理学会对生产、消费和价格做出经济合理的决策,并对供需变化做出适当的反应。群体趋向于反映附近资源丰富的当地价格,一些代理学会在这些地区之间运输货物以“低买高卖”。这项工作通过引入新的社会挑战让代理学习如何解决,推动了更广泛的多代理强化学习研究议程。

我们最近的论文

就多代理强化学习研究的目标是最终产生能够在人类社会智能的全部范围和复杂性中工作的代理而言,迄今为止考虑的领域集非常不完整。它仍然缺少人类智能擅长的关键领域,而人类花费了大量的时间和精力。经济学的主题就是这样一个领域。我们这项工作的目标是建立基于交易和谈判主题的环境,供多智能体强化学习的研究人员使用。

我们的环境称为水果市场,是一个多人环境,其中智能体生产和消费两种水果:苹果和香蕉。 每个智能体都擅长生产一种水果,但更喜欢另一种——如果智能体可以学会易货和交换商品,双方都会受益。

水果市场 通往通用人工智能的道路 大熔炉