人工智能和人类的合作效果如何?科学家们正在通过《龙与地下城》来寻找答案

D&D 被用作衡量模型制定长期计划、遵守规则以及与团队制定战略的能力的基准。

来源:LiveScience

人工智能 (AI) 模型一直在玩流行的桌面角色扮演游戏《龙与地下城》(D&D),以便研究人员可以测试他们制定长期策略以及与其他人工智能系统和人类玩家协作的能力。

在 12 月 2 日至 7 日在圣地亚哥举行的 NeurIPS 2025 会议上发表的一项研究中,研究人员表示,由于该游戏独特地融合了创造力和严格的规则,D&D 是一个最佳的测试平台。

为了在游戏中取得成功,模型必须表现出计划、沟通和记忆的能力,并表现出对对手战术和意图的认识。 D&D 提供了一个背景和规则被明确定义的环境,并充当自然语言和游戏机制之间的桥梁。

对于实验,单个模型可以扮演地下城主 (DM) 的角色(创建故事并扮演怪物角色的个人)以及英雄(每个场景中有一名 DM 和四名英雄)。在为该研究构建的名为“D&D Agents”的框架中,模型还可以与其他法学硕士一起玩,或者人类玩家可以自己填补任何或所有角色。例如,一名法学硕士可以扮演 DM 的角色,而两名法学硕士和两名人类玩家则扮演英雄。

“《龙与地下城》是评估多步骤规划、遵守规则和团队策略的天然试验场,”该研究的资深作者、加州大学圣地亚哥分校计算机科学与工程系助理教授 Raj Ammanabrolu 在一份声明中表示。 “因为游戏是通过对话展开的,《龙与地下城》也为人类与人工智能的互动开辟了一条直接途径:智能体可以协助其他人或与其他人共同游戏。”

战略和决策框架

研究人员通过模拟运行了三种不同的 AI 模型——DeepSeek-V3、Claude Haiku 3.5 和 GPT-4——并使用 D&D 作为衡量模型如何展示长期规划和工具使用能力等品质的指标。