测量AI模型中的感知

感知 - 通过感官体验世界的过程 - 是智力的重要组成部分。对世界具有人层感知理解的建筑代理是一项核心但具有挑战性的任务,在机器人技术,自动驾驶汽车,个人助理,医学成像等方面变得越来越重要。因此,今天,我们推出了感知测试,这是一种使用现实世界视频的多模式基准测试,以帮助评估模型的感知能力。

来源:DeepMind - 新闻与博客

研究

测量AI模型中的感知

发表于2022年10月2222年10月22日,卢卡斯·斯玛拉(Lucas Smaira),安库斯·古普塔(Ankush Gupta),阿德里亚(Adria) Zhang,Hanna Klimczak,Stephanie Winkler,Yusuf Aytar,Raphael Koster,Simon Osindero,Dima Damen,Andrew Zisserman,JoãoCarreira。
已发布
2022年10月12日
作者
Viorica Pătrăucean, Lucas Smaira, Ankush Gupta, Adria Recasens, Yi Yang, Mateusz Malinowski, Carl Doersch, Larisa Markeeva, Yury Sulsky, Dylan Banarse, Skanda Koppula, Tatiana Matejovicova, Antoine Miech, Alex Frechette, Junlin Zhang, Hanna Klimczak,Stephanie Winkler,Yusuf Aytar,Raphael Koster,Simon Osindero,Dima Damen,Andrew Zisserman,JoãoCarreira。

基于现实世界视频,音频和文本数据评估多模式系统的新基准测试

从图灵测试到成像网,基准通过帮助定义研究目标并允许研究人员衡量对这些目标的进步,在塑造人工智能(AI)方面发挥了工具作用。在过去的10年中,令人难以置信的突破,例如计算机视觉中的Alexnet和蛋白质折叠中的Alphafold,与使用基准数据集有着密切的联系,使研究人员可以对模型设计和培训选择进行排名,并迭代以改善模型。随着我们朝着建立人工通用情报(AGI)的目标而努力,开发了扩展AI模型功能的强大而有效的基准,与开发模型本身一样重要。

图灵测试 Imagenet Alexnet alphafold 感知测试

开发感知基准

动力学 Audioset mot VQA 感知者 flamingo beit-3

为了解决许多此类问题,我们创建了一个有目的设计的现实活动视频的数据集,根据六种不同类型的任务标记:

对象跟踪: 点跟踪: 时间动作本地化: 时间声音本地化: Cater