AI研究人员越来越多地使用Super Mario Bros进行基准测试 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

AI研究人员越来越多地使用Super Mario Bros进行基准测试

2025年3月5日 16:00 33 Comments

最近注意到，加州大学圣地亚哥大学的Hao AI实验室的研究人员在AI研究中的一项令人着迷的发展，在经典视频游戏Super Mario Bros的帮助下进行了突破性的人工智能测试。这种创新的方法代表了开发更复杂的AI基准测试方法的重要一步。该研究项目使用了[…] AI研究人员使用Super Mario Bros的越来越多的范围首次出现在AI新闻中。

来源:AI新闻

最近注意到，加州大学圣地亚哥大学的Hao AI实验室的研究人员在AI研究中的一项令人着迷的发展，在经典视频游戏Super Mario Bros的帮助下进行了突破性的人工智能测试。

这种创新方法代表了开发更复杂的AI基准测试方法的重要一步。

该研究项目使用了一个名为GamingAgent的特殊开发的框架，该框架可以通过模拟器在AI系统与游戏之间进行集成。这使研究人员可以为AI代理提供基本说明，例如“如果障碍物或敌人接近，请移动/跳到左边以避免它”，同时收到游戏中的屏幕截图以做出决定。然后，AI系统以Python代码的形式生成控制命令，以通过游戏的挑战性环境来控制Mario。

AI测试的游戏框架

游戏框架在视频游戏测试中取得了重大进展。该专业工具集成了超级马里奥兄弟的仿真器。通过允许AI模型直接与游戏交互的接口。

gamingagent

测试最有趣的结果表明，人类的Claude 3.7表现超过了竞争对手，紧随其后的是Claude 3.5。但是，Google的Gemini 1.5 Pro和OpenAI的GPT-4都在管理游戏苛刻的环境方面都遇到了很大的困难。

2048 AI游戏比较

最引人注目的观察之一是，所谓的“推理模型”，例如通常比传统基准测试优越的OpenAI O1在这种情况下表现良好。这主要是由于这些模型需要几秒钟来做出决策，这在快速节奏游戏中是灾难性的，该游戏的时机对成功至关重要。

动态环境中的复杂导航

要求基于计时的操作

交互的复杂的集成障碍物做出 OpenAI 人工智能灾难性的 Mario 注意到测试的新方法例如开发视频环境实验室框架测试方法表现测试代码的研究项目 Claude 动态环境模拟器研究人员实验室的游戏 AI 仿真器动态

AI研究人员越来越多地使用Super Mario Bros进行基准测试

AI测试的游戏框架

其他外部链接

Tags

XiaoMi-AI