我的目标是构建可以帮助实现现实任务的人的交互式AI系统,例如使机器人能够根据语言教学“洗衣服”执行家庭任务,或者允许数字助手通过与他们交谈来帮助盲目的视觉挑战。为了构建类似的系统,我进行了跨学科研究,该研究涵盖了计算机视觉,自然语言处理和机器人技术的交集。我的研究重点是基础:将语言与感知(主要是视觉)和动作联系起来,使机器能够理解物理世界的语义。通过整合这些不同学科的见解,我试图促进可以看到,交谈和采取行动的AI代理的发展,从而为解决社会需求并推动AI能力界限的解决方案做出了贡献。视觉是人类智力最重要的方式之一。为了弥合视觉和语言之间的差距,我开发了视觉上的交互式系统,这些系统可以与人类有关图像的连续沟通[1,2,3]。训练这些系统的主要瓶颈是缩放视觉接地的对话数据的困难。为了应对这一挑战,我引入了一种新方法,该方法会自动生成有关从网络获得数百万张图像的合成对话数据。通过利用综合数据来训练视觉接地的对话系统,我发现它们在与人交谈时会对图像产生准确而强大的响应。我已经将基于图像的系统扩展到基于视频的交互式系统[4]。我们提出了一种方法,以有效地融合以语言为基础的时间和空间信息,考虑到视频数据的独特属性。幼儿不仅通过感知来了解物理世界的语义,而且还通过与环境互动来操纵他们的感知[5]。这种观点帮助我将视觉扎根的系统扩展到体现的AI系统[6,7,8],这些系统通过与人类的语言互动执行现实世界任务。我的工作专注于语言引导的机器人操纵,在该机器人手臂上应根据人类用户的自然语言指导来操纵对象。我研究了一种新的方案,其中初始指令在不提及目标对象的情况下模棱两可。体现的系统应通过查看和与用户对话来消除目标对象。我的工作成功 - 完全与人类互动以最小的互动来执行真实的任务。
主要关键词