AI研究人员越来越多地使用Super Mario Bros进行基准测试

最近注意到,加州大学圣地亚哥大学的Hao AI实验室的研究人员在AI研究中的一项令人着迷的发展,在经典视频游戏Super Mario Bros的帮助下进行了突破性的人工智能测试。这种创新的方法代表了开发更复杂的AI基准测试方法的重要一步。该研究项目使用了[…] AI研究人员使用Super Mario Bros的越来越多的范围首次出现在AI新闻中。

来源:AI新闻

最近注意到,加州大学圣地亚哥大学的Hao AI实验室的研究人员在AI研究中的一项令人着迷的发展,在经典视频游戏Super Mario Bros的帮助下进行了突破性的人工智能测试。

这种创新方法代表了开发更复杂的AI基准测试方法的重要一步。

该研究项目使用了一个名为GamingAgent的特殊开发的框架,该框架可以通过模拟器在AI系统与游戏之间进行集成。这使研究人员可以为AI代理提供基本说明,例如“如果障碍物或敌人接近,请移动/跳到左边以避免它”,同时收到游戏中的屏幕截图以做出决定。然后,AI系统以Python代码的形式生成控制命令,以通过游戏的挑战性环境来控制Mario。

AI测试的游戏框架

游戏框架在视频游戏测试中取得了重大进展。该专业工具集成了超级马里奥兄弟的仿真器。通过允许AI模型直接与游戏交互的接口。

gamingagent

测试最有趣的结果表明,人类的Claude 3.7表现超过了竞争对手,紧随其后的是Claude 3.5。但是,Google的Gemini 1.5 Pro和OpenAI的GPT-4都在管理游戏苛刻的环境方面都遇到了很大的困难。

2048 AI游戏比较

最引人注目的观察之一是,所谓的“推理模型”,例如通常比传统基准测试优越的OpenAI O1在这种情况下表现良好。这主要是由于这些模型需要几秒钟来做出决策,这在快速节奏游戏中是灾难性的,该游戏的时机对成功至关重要。

  • 动态环境中的复杂导航
  • 要求基于计时的操作