详细内容或原文请订阅后点击阅览
AI研究人员越来越多地使用Super Mario Bros进行基准测试
最近注意到,加州大学圣地亚哥大学的Hao AI实验室的研究人员在AI研究中的一项令人着迷的发展,在经典视频游戏Super Mario Bros的帮助下进行了突破性的人工智能测试。这种创新的方法代表了开发更复杂的AI基准测试方法的重要一步。该研究项目使用了[…] AI研究人员使用Super Mario Bros的越来越多的范围首次出现在AI新闻中。
来源:AI新闻最近注意到,加州大学圣地亚哥大学的Hao AI实验室的研究人员在AI研究中的一项令人着迷的发展,在经典视频游戏Super Mario Bros的帮助下进行了突破性的人工智能测试。
这种创新方法代表了开发更复杂的AI基准测试方法的重要一步。
该研究项目使用了一个名为GamingAgent的特殊开发的框架,该框架可以通过模拟器在AI系统与游戏之间进行集成。这使研究人员可以为AI代理提供基本说明,例如“如果障碍物或敌人接近,请移动/跳到左边以避免它”,同时收到游戏中的屏幕截图以做出决定。然后,AI系统以Python代码的形式生成控制命令,以通过游戏的挑战性环境来控制Mario。
AI测试的游戏框架
游戏框架在视频游戏测试中取得了重大进展。该专业工具集成了超级马里奥兄弟的仿真器。通过允许AI模型直接与游戏交互的接口。
gamingagent测试最有趣的结果表明,人类的Claude 3.7表现超过了竞争对手,紧随其后的是Claude 3.5。但是,Google的Gemini 1.5 Pro和OpenAI的GPT-4都在管理游戏苛刻的环境方面都遇到了很大的困难。
2048 AI游戏比较
最引人注目的观察之一是,所谓的“推理模型”,例如通常比传统基准测试优越的OpenAI O1在这种情况下表现良好。这主要是由于这些模型需要几秒钟来做出决策,这在快速节奏游戏中是灾难性的,该游戏的时机对成功至关重要。