2B,Ch。5.整体科技工作将在技术就绪水平 (TRL) 1 – 5 阶段进行。主题 1 标题:受人类启发的智能体视觉-语言交互计算模型背景:人类智能的一个独特特征是复杂的语言及其与视觉(和其他感官)的交互。这些交互实现了有效和高效的沟通和协作,并扩大了智能体仅凭视觉或语言就能学习的概念和任务的范围和复杂性。近年来,计算机视觉和自然语言处理都取得了重大进展,但主要沿着不同的路径,特别是在视觉对象识别和大型语言模型(例如BERT、GPT-3)以及图像/视频字幕、从文本生成图像(例如DALL-E、Imagen)和视觉语言模型(例如Flamingo)方面;然而,这些进步并没有导致学习复杂的概念和任务,以及代理执行任务或回答复杂查询所需的深度语义推理。为了将代理的智能提升到更高的水平,ONR 需要研究人类视觉语言 (VL) 交互的复杂性,并为代理开发用于 VL 交互的原则性计算模型。此外,某些基本问题可以通过 VL 交互最有效地解决。示例包括将 AI 代理扎根于我们的物理世界;使用 VL 对话理解情景场景;因为语言充满了模糊的空间和时间参考,视觉可以有效地解决这些问题。另一个基本问题是少样本学习,一个经常被引用的例子是代理学习“椅子”,其中一些椅子图像加上椅子的简短描述比向代理展示数千张椅子图像或描述椅子的方法更有效。