评估多模态交互式代理

在本文中,我们评估了这些现有评估指标的优点,并提出了一种称为标准化测试套件 (STS) 的新型评估方法。STS 使用从真实人机交互数据中挖掘的行为场景。

来源:DeepMind - 新闻与博客

为了训练代理与人类良好互动,我们需要能够衡量进展。但人类互动很复杂,衡量进展很困难。在这项工作中,我们开发了一种称为标准化测试套件 (STS) 的方法,用于评估代理在时间扩展、多模式交互中的表现。我们研究了由人类参与者要求代理在 3D 模拟环境中执行任务和回答问题的交互。

STS 方法将代理置于从真实人类互动数据中挖掘出的一组行为场景中。代理看到重播的场景上下文,接收指令,然后被赋予控制权以离线完成交互。这些代理延续被记录下来,然后发送给人类评估者以注释为成功或失败。然后根据代理成功的场景比例对代理进行排名。

在我们日常互动中,许多对人类来说是第二天性的行为很难用语言表达,也不可能形式化。因此,当我们试图教智能体与人类进行流畅且成功的互动时,使用强化学习解决游戏(如 Atari、围棋、DotA 和星际争霸)所依赖的机制将不起作用。例如,想想这两个问题之间的区别:“谁赢了这场围棋比赛?”与“你在看什么?”在第一种情况下,我们可以编写一段计算机代码,在游戏结束时计算棋盘上的棋子并确定获胜者。在第二种情况下,我们不知道如何将其编码:答案可能取决于说话者、所涉及物体的大小和形状、说话者是否在开玩笑以及话语所处环境的其他方面。人类直观地了解回答这个看似平凡的问题所涉及的无数相关因素。