摘要。自主驾驶最近在模拟和现实世界中都取得了令人印象深刻的进步,尤其是端到端方法。但是,这些模型通常充当黑匣子,并且缺乏解释性。大型语言模型(LLM)的出现通过将模块化自主驾驶与语言解释相结合,从而解决了潜在的解决方案。最新的LLM解决方案将驱动信息转换为语言,这些语言通常需要手动设计的提示,并可能导致次优信息效率。视觉语言模型(VLM)可以直接从图像中提取信息,但有时会在涉及持续驾驶场景理解和上下文推理的任务中挣扎。在本文中,我们提出了Think-Driver,这是一种视觉语言模型,该模型使用多视图图像来生成合理的驾驶决策和推理过程。我们的模型评估了感知到的交通状况,并评估当前驾驶操作的风险,从而有助于理性决策。通过闭环的话题,思想驱动器的表现优于其他视觉模型基础线,从而产生了可解释的驾驶决策,从而证明了其在未来应用中的有效性和潜力。
在应用程序开发过程中,Lookout 团队参与了多次人工智能原则评审,并进行了对抗性公平性测试。该团队采用了 Google DeepMind 视觉语言模型 (VLM),该模型针对此用例进行了高度定制,并得到了来自 BLV 人群以及跨性别和非二元性别者的多轮反馈。VLM 使人们能够就图像提出自然语言问题。新的 Lookout 问答功能允许用户超越字幕,询问对他们来说最重要的图像细节。此功能允许团队提供不带感知性别的字幕,但如果用户询问有关某人性别的问题,该模型可以使用来自该人外表的线索提供感知性别的最佳猜测。通过这种方式,Lookout 可以避免在不需要时提供性别描述,从而减少潜在的性别错误,但应用程序可以在用户认为这些信息对他们有用时提供这些信息。Lookout 团队对 BLV 和非二元性别的最终用户测试了这种方法,发现这些用户认为这种方法既有用又尊重。
估计相互作用的人类的3D姿势和形状以及来自单个野外图像的物体对于混合现实和机器人技术很重要。由于阻塞,深度歧义和广泛变化的物体形状,这具有挑战性。现有工作通过利用身体和物体上的表面接触点并使用这些来指导3D重建来应对这些挑战。不幸的是,获得3D接触注释需要昂贵的3D地面真相或耗时的手动标签。,根据大规模获取培训数据是一个挑战。我们通过开发一种称为InteractVLM的新型模型来解决此问题,该模型利用大型视觉语言模型(VLM)的广泛视觉知识。问题是,这些大型模型并未直接“理解” 3D人类对象接触。为了解决这个问题,我们利用了3D人类对象交互的现有小型数据集来微调大型模型以了解接触。但是,这是非平凡的,因为这种模型仅在2D中“仅”,而触点是继承的3D。因此,我们引入了一个新颖的“ RenderLecalize-Lift”模块,该模块:(1)通过多视图渲染将3D主体和物体表面嵌入2D空间,(2)训练一种新型的多视图本地化模型(MV-LOC),以推断2D,
随着变压器和视觉模型(VLM)的出现,例如剪辑,微调大型预培训模型最近已成为持续学习的普遍策略。这导致发展了许多促使策略以适应基于变形金刚的模型而不会引起灾难性遗忘。但是,这些策略通常会损害预先训练的剪辑模型的原始零射击功能,并难以适应明显偏离预训练数据的域。在这项工作中,我们提出了持续的生成培训,以进行增量及时学习,这是一种简单而新颖的方法,可以减轻遗忘,同时调整剪辑。简而言之,我们采用各种自动编码器(VAE)来学习视觉编码器嵌入空间内的类调节分布。然后,我们利用这些分布来采样新的合成视觉嵌入式,并在随后的任务中训练相应的特定类文本提示。通过对不同领域的广泛实验,我们表明,这种生成的重播方法可以适应新任务,同时改善零射击功能,并使用针对CL方案量身定制的新型度量标准进行了评估。值得注意的是,进一步的分析表明,我们的方法可以通过关节及时调整弥合差距。该代码库可从https://github.com/ aimagelab/mammoth获得。
随着变压器和视觉模型(VLM)的出现,例如剪辑,微调大型预培训模型最近已成为持续学习的普遍策略。这导致发展了许多促使策略以适应基于变形金刚的模型而不会引起灾难性遗忘。但是,这些策略通常会损害预先训练的剪辑模型的原始零射击功能,并难以适应明显偏离预训练数据的域。在这项工作中,我们提出了持续的生成培训,以进行增量及时学习,这是一种简单而新颖的方法,可以减轻遗忘,同时调整剪辑。简而言之,我们采用各种自动编码器(VAE)来学习视觉编码器嵌入空间内的类调节分布。然后,我们利用这些分布来采样新的合成视觉嵌入式,并在随后的任务中训练相应的特定类文本提示。通过对不同领域的广泛实验,我们表明,这种生成的重播方法可以适应新任务,同时改善了零发功能,并使用针对CL方案量身定制的新型度量标准进行了评估。值得注意的是,进一步的分析表明,我们的方法可以通过关节及时调整弥合差距。该代码库可从https://github.com/ aimagelab/mammoth获得。
在广泛的数据集上预先训练的视觉语言模型(VLMS)可以通过将性别信息与特定对象或场景相关联,无意中地学习偏见。当前方法,该方法着重于修改输入并监视模型的输出概率分数的变化,通常从模型组件的角度来全面地偏见。我们提出了一个框架,该框架结合了因果中介分析,以确保并绘制VLM中偏见产生和传播的途径。我们的框架适用于广泛的视觉语言和多模式任务。在这项工作中,我们将其应用于对象检测任务并将其应用于GLIP模型。这种方法使我们能够确定干预措施对模型偏差的直接影响以及干预措施对通过不同模型组件介导的偏差的间接影响。我们的结果表明,图像效果是偏见的主要因素,其影响明显高于文本特征,特别是占MSCOCO和PASCAL-SONTIC数据集中偏见的32.57%和12.63%。值得注意的是,图像编码器的贡献超过了文本编码器和深层融合编码器的贡献。进一步的实验证实,语言和视力方式的贡献是对齐和不集中的。因此,在图像编码器中着重于模糊的性别表示,这对模型偏见做出了最大的贡献,在MSCOCO和PASCAL-SENTENCE数据集中,有效地降低了偏见22.03%和9.04%,并且具有最小的性能损失或增加的计算需求。1
在3D视觉问题回答(3D VQA)中,完全注释的数据的稀缺性和有限的视觉内容多样性阻碍了对新型场景和3D概念的概括(例如,在Scanqa和SQA数据集中仅利用了大约800个场景)。当前的方法通过2D信息来制作Resort补充3D。但是,这些方法面临挑战:他们要么使用自上而下的2D视图,这些视图引发了过于复杂的,有时甚至是问题,要么依赖于2D VLMS的全球汇总场景/图像级表示,从而失去了良好的视觉效果 - 语言相关性。为了克服这些局限性,我们的方法采用了问题条件2D查看选择程序,从而指出了至关重要的视觉线索的语义相关的2D输入。然后,我们通过两支分支变压器结构将此2D知识集成到3D-VQA系统中。这种结构具有双转化器的特征,将2D和3D模态和结合方式结合在一起,并结合了模态之间的细粒度相关性,从而使它们互相增强。整合了上面提出的机制,我们提出了BridgeQa,该机制为3D-VQA的多模式变压器架构提供了新的视角。实验验证了BridgeQA可以在3D-VQA数据集上实现最新技术,并显着超过现有的解决方案。代码可在https:// github上找到。com/matthewdm0816/bridgeqa。
摘要 - 大多数现有的社会机器人导航技术要么利用手工制作的规则,要么是人类的示范,以将机器人感知与社会兼容的行动联系起来。但是,有效地将感知转化为具有社会符合社会的行动,就像人类推理在动态环境中自然发生一样。考虑到视觉模型(VLM)的最新成功,我们建议使用语言来弥合感知和具有社会意识的机器人行动之间类似人类的推理的差距。我们通过可解释的互动(SNEI)创建了一个视觉语言数据集,社交机器人导航,特征是基于2K人类机器人社交互动的40k人类通知的视觉问题答案(VQA),在非结构化的,拥挤的公共空间,跨越的公共空间,跨越感知,预测,预测,预测,三连锁推理,链的推理,行动,动作,动作,动作和解释。我们使用Snei微调了VLM,社交式,以演示我们数据集的实际应用。社交式的表现优于诸如GPT-4V和Gemini的最新模型,基于50个VQA的15种不同的人为法官得分的平均值。在船上部署了一个移动机器人,社交式实现了类似人类的推理,这标志着通过语言推理在动态公共空间中朝着社会兼容的机器人导航迈出的有希望的一步。
视觉语言模型(VLM)最近被利用以生成机器人动作,形成视觉语言动作(VLA)模型。然而,直接适应验证的VLM来进行机器人控制仍然具有挑战性,尤其是当受到有限数量的机器人示范限制时。在这项工作中,我们介绍了llara:l arge l arguage and robotics a ssistant,该框架将机器人动作策略作为视觉文本对话制定,并通过视觉视觉视觉中的视觉音调调谐到计算机视觉中的成功激励到有效的VLA中,从而有效地将VLM转移到强大的VLA中。首先,我们提出了一条自动化管道,以生成来自外部行为克隆数据集的机器人的对话风格的指令调整数据,将机器人动作与图像像素辅助材料对齐。此外,我们通过定义六个辅助任务以自我监督的方式增强了此数据集,而无需任何其他操作注释。我们表明,使用有限数量的此类数据集进行的VLM FINETUNENET可以为机器人控制产生有意义的行动决策。通过跨模拟和现实世界的实验,我们证明了Llara在保留大语言模型的概括能力的同时,实现了状态的性能。代码,数据集和预处理的模型可在https://github.com/lostxine/llara上找到。
下一代机器人应结合其他领域的想法,例如计算机视觉,自然语言处理,机器学习和许多其他领域,因为封闭环境需要在复杂的真实环境中基于多模式输入来处理复杂的任务。这个研讨会的计划着重于机器人学习的生成模型,该模型在于AI和机器人技术的重要和基本领域。基于学习的机器人技术方法已在各种任务中实现了高成功率和概括能力,例如操纵,导航,大满贯,场景重建,原则和物理建模。但是,机器人学习面临着几个挑战,包括数据收集的昂贵成本以及在不同任务和方案中的可转移性较弱。受到计算机视觉和自然语言处理的重大进展的启发,已经努力将生成模型与机器人学习结合在一起,以应对上述挑战,例如综合高质量数据,并将生成框架纳入表示和政策学习。此外,预先训练的大型语言模型(LLM),视觉语言模型(VLM)和视觉语言 - 行动(VLA)模型适用于各种下游任务,以充分利用丰富的常识知识。这种渐进发展使机器人学习框架可以应用于复杂而多样化的现实世界任务。