人工智能(AI)的进步提供了有希望的解决方案,可增强临床工作流程和患者护理,并有可能彻底改变医疗保健服务。但是,医疗保健中AI集成的传统范式受到依靠培训期间单个输入方式的模型的限制,并且需要广泛的标记数据,无法捕获医疗实践的多模式性质。多模式基础模型,尤其是大型视觉语言模型(VLM),有可能通过处理多种数据类型并从大型未标记的数据集或不同方式的自然对中学习来克服这些局限性,从而有助于发展医疗保健中更健壮和多功能AI系统的发展。在这篇评论中,我们为医学成像应用的多模式基础模型建立了统一的术语,并对2012年至2024年发表的论文进行了系统分析。总共筛选了医疗和AI领域的1,144篇论文,并从97个包括的研究中提取了数据。我们的全面努力汇总了先前工作的集体知识,评估了医疗保健中多模式AI的现状,并描述了主要的局限性和潜在的增长领域。我们为包括模型开发人员,临床医生,政策制定者和数据集策展人在内的各种利益相关者提供实施指南和可行的建议。
开放式摄取的人类对象相互作用(HOI)的构图与检测以自然语言为指导的新型HOI的问题有关,这对于不认为以人为中心的场景至关重要。然而,先前的零射HOI检测器通常使用相同水平的图形图来模拟距离的HOI,从而在包含具有较大距离的人类对象对的场景中导致次优性能。此外,这些检测器主要依赖类别名称,并概述语言可以提供的丰富上下文信息,这对于捕获通常很少见的开放词汇概念至关重要,而单独使用类别名称的词汇量不佳。在本文中,我们引入了一种新型的端到端开放词汇HOI检测框架,该框架具有有条件的多级解码和细粒度的semantic增强(CMD-SE)(CMD-SE),从而利用了视觉语言模型(VLMS)的潜力。具体来说,我们建议通过在两部分匹配过程中结合软性结合来对具有不同特征图的不同距离的人类对象对进行建模。更重要的是,通过利用大型语言模型(LLM),例如GPT模型,我们利用了他们广泛的世界知识来生成人体部分状态的描述,以进行各种相互作用。然后,我们整合了人体部分的泛化和细粒语义,以证明相互作用的识别。在两个数据集(Swig-hoi和Hico-det)上进行的实验结果表明,我们提出的方法达到了最新的方法,可以实现开放的词汇HOI检测。代码和模型可在https://github.com/ltttpku/cmd-se-版本中使用。
增强概括并实现与人类用户的互动性。最近的方法可以使VLM通过单轮视觉问题答案(VQA)适应VLM,但人类驾驶员在多个步骤中的决策原因。从关键对象的本地化开始,人类在采取行动之前估计相互作用。关键洞察力是,通过我们提出的任务,图形VQA,我们在其中建模了图形结构的理由,通过感知,预测和计划问题 - 答案对,我们获得了一个合适的代理任务来模仿人类的推理。我们实例化基于Nuscenes和Carla建立的数据集(DRIVELM-DATA),并提出了一种基于VLM的基线方法(Drivelm-Agent),用于共同执行图形VQA和端到端驾驶。实验表明,Graph VQA提供了一个简单的原则性框架,用于推理驾驶场景,而Drivelm-Data为这项任务提供了具有挑战性的基准。与最新的驾驶特定架构相比,我们的Drivelm-Agent基线端到端自动驾驶竞争性驾驶。值得注意的是,当在看不见的传感器配置上评估其零射击时,其好处是明显的。我们的问题上的消融研究表明,绩效增长来自图表结构中对质量检查对质量检查的丰富注释。所有数据,模型和官方评估服务器均可在https://github.com/opendrivelab/drivelm上找到。
增强概括并实现与人类用户的互动性。最近的方法可以使VLM通过单轮视觉问题答案(VQA)适应VLM,但人类驾驶员在多个步骤中的决策原因。从关键对象的本地化开始,人类在采取行动之前估计相互作用。关键洞察力是,通过我们提出的任务,图形VQA,我们在其中建模了图形结构的理由,通过感知,预测和计划问题 - 答案对,我们获得了一个合适的代理任务来模仿人类的推理。我们实例化基于Nuscenes和Carla建立的数据集(DRIVELM-DATA),并提出了一种基于VLM的基线方法(Drivelm-Agent),用于共同执行图形VQA和端到端驾驶。实验表明,Graph VQA提供了一个简单的原则性框架,用于推理驾驶场景,而Drivelm-Data为这项任务提供了具有挑战性的基准。与最新的驾驶特定架构相比,我们的Drivelm-Agent基线端到端自动驾驶竞争性驾驶。值得注意的是,当在看不见的传感器配置上评估其零射击时,其好处是明显的。我们的问题上的消融研究表明,绩效增长来自图表结构中对质量检查对质量检查的丰富注释。所有数据,模型和官方评估服务器均可在https://github.com/opendrivelab/drivelm上找到。
视觉模型(VLM)的在线测试时间适应(OTTA)最近引起了人们的注意,以利用沿流观察到的数据,以改善未来的预测。不幸的是,现有方法依赖于数据集特异性的超参数,从而大大限制了它们对看不见的任务的适应性。为了响应,我们提出了在线高斯适应(OGA),这是一种新颖的方法,该方法使用高斯分布来对视觉特征的可能性进行建模,并将零摄影先验纳入可启动的最大a后验(MAP)估计框架中,并与所有数据集中的固定超参数一起使用。我们证明,在大多数数据集和运行中,OGA优于最先进的方法。此外,我们表明,将OTTA与流行的几弹技术结合起来(一种实用但被忽视的先前研究环境)是非常有益的。此外,我们的实验研究表明,由于所有OTTA方法在运行中观察到的实质性可变性,常见的OTTA评估方案的平均性能在每个数据集中最多要超过三个。因此,我们主张更多的索式评估实践,包括增加运行的数量和考虑其他定量指标,例如我们提出的预期尾巴准确性(ETA),计算为最差10%的运行中的平均准确性。我们希望这些贡献将鼓励OTTA社区中更严格,更多样化的评估实践。代码可在https://github.com/cfuchs2023/oga上找到。
我们提出了3D空间多模式内存(M3),这是一种多模式存储系统,旨在通过视频源保留有关中型静态场景的信息,以供视觉感知。通过将3D高斯脱衣技术与基础模型集成在一起,M3构建了能够跨粒度呈现特征表示的多模式内存,其中包括广泛的知识。在我们的探索中,我们在以前的特征劈叉上确定了两个关键挑战:(1)在每个高斯原始原始原始原始的存储高维纤维中的计算限制,以及(2)蒸馏功能和基础模型之间的未对准或信息损失。为了解决这些挑战,我们提出了M3的主要场景组件和高斯记忆注意的关键组成部分,从而实现了有效的训练和推理。为了验证M3,我们对特征相似性和下游任务以及定性可视化进行了全面的定量评估,以突出显示高斯记忆注意的像素痕迹。我们的方法包括各种基础模型,包括视觉模型(VLM),感知模型以及大型多模式和语言模型(LMMS/LLMS)。此外,为了演示现实世界的适用性,我们在四足机器人的室内场景中部署了M3的功能字段。值得注意的是,我们声称M3是在3D功能蒸馏中挑战核心压缩挑战的第一项工作。
大型模型已显示出对视觉和语言中复杂问题的强烈开放概括,但是它们在机器人技术中的部署相对较难。这一挑战主要源于缺乏可扩展的机器人训练数据,因为这需要昂贵的机器人收集。对于可扩展的培训,这些模型必须显示跨域的大量传输,以利用廉价可用的“偏离”数据,例如视频,手绘草图或模拟数据。在这项工作中,我们认为,层次视觉语言 - 行动模式可以比标准的单片视觉语言行动模型更有效地在域上传输行为。尤其是我们研究了一类Hier-Archical Vision-Language-Action模型,其中高级视觉语言模型(VLMS)在相对便宜的数据上训练,以产生具有语义意义的中间预测,例如2D路径,表明所需的行为。这些预先指定的2D路径是3D感知且能够精确操作的低级控制策略的指导。在这项工作中,我们表明将预先字典分开为语义高级预测,而3D感知的低级预测可以使这种层次结构的VLA策略可以跨越重要的域间隙转移,从模拟到现实世界或跨场景,具有巨大变化的视觉效果。这样做可以使用廉价,丰富的数据源,除了遥控的机上数据,从而实现了广泛的语义和视觉通用。我们证明了如何通过模拟和现实世界中的实验进行语义,视觉和几何概括来实现语义,视觉和几何概括的机器人操作,以实现机器人操作。
对象导航(ObjectNav)要求代理在看不见的环境中导航以找到查询对象。许多以前的方法试图通过依靠经过跨越或强化学习来解决此任务,在该学习中,它们在具有近距离对象的有限家庭数据集上进行了培训。然而,尚未解决两个主要挑战:了解自由形式的自然语言指令,要求开放式观察,并以零拍的方式推广到新环境。旨在解决这两个挑战,在本文中,我们提出了OpenFM- NAV,这是一个基于零照射对象导航的基于odel m ODEL M ODEL的框架。我们首先释放了大型语言模型(LLMS)的推理能力,以从满足用户需求的自然语言指令中提取拟议的观察。然后,我们利用大型视觉语言模型(VLM)的普遍性来积极地从场景中发现和脱离候选对象,建立多功能语义得分图(VSSM)。然后,通过对VSSM进行常识推理,我们的方法可以对场景进行有效的语言引导探索和剥削,并最终达到目标。通过利用基础模型的推理和概括,我们的方法可以理解自由形式的人类指示并在不同环境中进行有效的开放式零射门导航。在HM3D ObjectNAV基准上进行的广泛实验表明,我们的方法超过了所有指标上的所有强基础,证明了我们方法的有效性。1此外,我们执行真实的机器人演示,以验证我们方法对现实环境的开放定点性和普遍性。
摘要 - 随着大型语言模型(LLM),视觉模型(VLM)和其他一般基础模型的最新兴起,多模式,多任务体现的代理的潜力越来越大,可以在不同的环境中以自然语言作为输入来运作。一个这样的应用区是使用自然语言说明的室内导航。尽管最近进展,但由于所需的空间推理和语义理解,该问题仍然具有挑战性,尤其是在可能包含许多属于细粒类的对象的任意场景中。为了应对这一挑战,我们策划了3D场景(VLA-3D)的视觉和语言引导动作的最大现实世界数据集(VLA-3D),包括超过11.5k的现有数据集中的3D室内室内室内,2350万个启发式化的启发式化的启发式语义生成的语义关系,对象之间,综合构成了综合典型的参考性。我们的数据集由处理过的3D点云,语义对象和房间注释,场景图,可通航的自由空间注释以及参考语言语句,这些语言语言专门针对独立于视图的空间关系,以消除歧义对象。这些功能的目标是专门帮助导航的下游任务,尤其是在现实系统中,必须在不断变化的场景和不完美的语言的开放世界中保证某种级别的鲁棒性。我们还旨在使该数据集有助于开发交互式代理,这些互动代理都可以响应命令并提出有关场景的问题并回答问题。我们使用当前的最新模型基准测试数据集,以获得性能基线。所有要生成和可视化数据集的代码均公开发布1。随着该数据集的发布,我们希望为语义3D场景中的进度提供资源,这对变化是可靠的,这将有助于开发交互式室内导航系统。
摘要:人类的交流长期以来一直依赖视觉媒体进行交互,并通过访问视觉数据的电子设备来促进。传统上,这种交换是单向的,受到基于文本的查询的约束。但是,人类 - 计算机互动的进步已经引入了诸如逆向图像搜索和大语言模型(LLM)之类的技术,从而使文本和视觉查询既可以进行。这些创新在文化遗产应用中特别有价值,例如在城市访问期间将游客与利益识别系统联系起来。本文研究了各种视觉语言模型(VLM)用于文化遗产视觉问题的使用,包括带有GPT-4的Bing的搜索引擎以及Qwen2-VL和Pixtral等开放模型。选择了二十个意大利地标进行研究,包括罗马斗兽场,米兰大教堂和米开朗基罗的大卫。对于每个地标,选择了两张图像:一个来自Wikipedia的图像,另一个来自科学数据库或私人收藏。这些图像输入了每个VLM,并具有有关其内容的文本查询。我们根据其完整性研究了响应的质量,评估了查询中各种细节的影响。此外,我们探讨了语言(英语与意大利语)对模型提供准确答案的能力的影响。我们的发现表明,在多语言数据集中训练的较大模型,例如qwen2-vl和bing+chatgpt-4,在英语和意大利语中都表现更好。令人惊讶的是,Wikimedia数据集的性能没有按预期执行,模型之间的结果有所不同。标志性的地标,例如罗马斗兽场和佛罗伦萨的Duomo,很容易被认可,并提供背景(例如,城市)证明了识别精度。可以在消费者工作站上运行的QWEN2-VL之类的开放模型显示出类似于较大型号的性能。虽然该算法表现出很强的结果,但它们还产生了偶尔的幻觉措施,强调了对文化遗产应用程序的AI系统进行持续改进的必要性。