详细内容或原文请订阅后点击阅览
通过玩“战舰”来教 AI 代理提出更好的问题
麻省理工学院的研究人员使用这款经典游戏作为 AI 代理的测试平台,发现小型 AI 模型可以以 1% 的成本超越最大的模型。
来源:MIT新闻 - 人工智能2026 年,对人工智能代理的炒作比以往任何时候都更加响亮。这些半自主程序可以在客户服务和软件开发等领域“思考”并执行明确定义的任务,通常使用语言模型(LM)。但医学诊断和科学发现等领域要求他们在不确定的环境中寻求大量的解决方案,而语言模型却在为此苦苦挣扎。
麻省理工学院计算机科学与人工智能实验室 (CSAIL) 和哈佛大学工程与应用科学学院 (SEAS) 的研究人员深入研究 LM,以了解它们在高风险环境中的主要问题。他们的测试:“战舰”,一款经典的猜谜游戏,帮助认知科学家研究人类如何寻求信息。
CSAIL 和 SEAS 学者通过围绕提问和回答自然语言问题重新构建游戏,增加了一些变化。在他们的“协作战舰”游戏中,一名参与者扮演“船长”,询问隐藏船只的位置,而他们的队友则扮演“观察员”,实时回答这些问题。
研究人员首先让 40 多人一起玩游戏,收集他们的问题和是非答案,以构建“BattleshipQA”数据集。当团队在游戏中测试最先进的 LM(如 GPT-5)和较小的模型(如 Llama 4 Scout)时,这些结果是一个有用的比较点。在不事先训练模型的情况下,他们发现顶级的 LM 可以在“战舰”中“击败”人类——也就是说,用更少的回合完成游戏——但较小的系统远没有那么理性。
也许最引人注目的结果是 Llama 4 Scout 的成果。作为一个相对较小的 LM,它只有 8% 的胜率能打败人类。但通过对其推理策略的改进,该模型相对于人类的“战舰”胜率达到了 82%。这种谨慎而高效的提问方式也使该模型超越了前沿模型 (GPT-5),同时运行成本仅为其 1% 左右。
