人工智能(AI)的进步提供了有希望的解决方案,可增强临床工作流程和患者护理,并有可能彻底改变医疗保健服务。但是,医疗保健中AI集成的传统范式受到依靠培训期间单个输入方式的模型的限制,并且需要广泛的标记数据,无法捕获医疗实践的多模式性质。多模式基础模型,尤其是大型视觉语言模型(VLM),有可能通过处理多种数据类型并从大型未标记的数据集或不同方式的自然对中学习来克服这些局限性,从而有助于发展医疗保健中更健壮和多功能AI系统的发展。在这篇评论中,我们为医学成像应用的多模式基础模型建立了统一的术语,并对2012年至2024年发表的论文进行了系统分析。总共筛选了医疗和AI领域的1,144篇论文,并从97个包括的研究中提取了数据。我们的全面努力汇总了先前工作的集体知识,评估了医疗保健中多模式AI的现状,并描述了主要的局限性和潜在的增长领域。我们为包括模型开发人员,临床医生,政策制定者和数据集策展人在内的各种利益相关者提供实施指南和可行的建议。
上个月,Kudan 参加了在圣何塞举行的 NVIDIA GPU 技术大会 (GTC) 和 Jetson 合作伙伴日。这是一个绝佳的机会,可以亲自了解生成式人工智能和更广泛的机器人领域的最新发展,加深我们对 NVIDIA 对市场趋势的看法,并推进与 NVIDIA 机器人团队和其他潜在合作者的合作。目前,NVIDIA 的大部分增长都集中在数据中心,反映了生成式 AI 的现状,其中计算密集型模型占主导地位。大规模语言模型 (LLM) 通常具有数十亿个参数,而 GPT-4 等最新进展估计将达到万亿个参数大关。 然而,谈到机器人加速计算和边缘计算,我们仍处于早期阶段。小型语言模型 (SLM) 和微型视觉语言模型 (VLM) 可以在 NVIDIA Jetson 设备(包括 Orin Nano)上运行。然而,边缘计算机预计要处理多项任务,而且机器人和边缘设备执行的任务的关键性要求对错误的容忍度要低得多。聊天机器人可以犯一些错误,但仍然可以为用户提供价值,但是当机器人犯错时,代价可能是灾难性的。 NVIDIA 对边缘计算和机器人技术的未来的乐观前景正在指导我们在这些领域的战略投资。尽管目前还处于早期阶段且面临诸多挑战,但边缘人工智能的市场机会无疑是巨大的。尽管这一市场扩张的时机仍不确定,但它所代表的机遇规模却是显而易见的。
在广泛的数据集上预先训练的视觉语言模型(VLMS)可以通过将性别信息与特定对象或场景相关联,无意中地学习偏见。当前方法,该方法着重于修改输入并监视模型的输出概率分数的变化,通常从模型组件的角度来全面地偏见。我们提出了一个框架,该框架结合了因果中介分析,以确保并绘制VLM中偏见产生和传播的途径。我们的框架适用于广泛的视觉语言和多模式任务。在这项工作中,我们将其应用于对象检测任务并将其应用于GLIP模型。这种方法使我们能够确定干预措施对模型偏差的直接影响以及干预措施对通过不同模型组件介导的偏差的间接影响。我们的结果表明,图像效果是偏见的主要因素,其影响明显高于文本特征,特别是占MSCOCO和PASCAL-SONTIC数据集中偏见的32.57%和12.63%。值得注意的是,图像编码器的贡献超过了文本编码器和深层融合编码器的贡献。进一步的实验证实,语言和视力方式的贡献是对齐和不集中的。因此,在图像编码器中着重于模糊的性别表示,这对模型偏见做出了最大的贡献,在MSCOCO和PASCAL-SENTENCE数据集中,有效地降低了偏见22.03%和9.04%,并且具有最小的性能损失或增加的计算需求。1
域的概括(DG)旨在解决源和目标域之间的分布变化,而Cur-Currand DG方法默认是从源和目标域共享相同类别的数据的设置。nev-但是,在实际情况下,从目标域中存在看不见的类。为了解决此问题,已经出现了开放式域概括(OSDG),并且已经完全提出了几种方法。但是,与DG方法相比,大多数措施的方法采用了具有略有改进的复杂体系结构。最近,在通过微调范式的DG中引入了视觉模型(VLM),但用大型视力模型消耗了大型的训练开销。因此,在本文中,我们创新了知识从VLMS转移到轻质视觉模型,并通过从三种表达式(包括得分,类别和实例(SCI)(SCI)的三种观点引入扰动蒸馏(PD)来提高鲁棒性,称为SCI-PD。此外,以前的方法是由具有相同和固定拆分的基准定向的,忽略了源域之间的局限性。这些方法可以通过我们提出的新的基准混合域概括(HDG)和一种新型的度量H 2 -CV造成急剧性能的衰减,它们构建了var-ous拆卸以全面评估算法的鲁棒性。广泛的实验表明,我们的方法在多PLE数据集上优于最先进的算法,尤其是在数据稀缺时提高了鲁棒性。1。简介
动作生成模块。我们使用以代理为中心或以对象为中心的方法生成每个动作。对于以对象为中心的动作生成,我们利用了NVIDIA的基础掌握预测模型M2T2 [1]进行选择和放置动作。对于6-DOF抓握,我们从单个RGB-D摄像头(在现实世界中)或多个摄像机(在模拟中)输入一个3D点云。该模型在任何可抓取的物体上输出一组掌握提案,提供6-DOF的抓取候选物(3-DOF旋转和3D-DOF翻译)和默认的抓地力关闭状态。对于放置操作,M2T2输出一组6-DOF放置姿势,指示在基于VLM计划执行Drop原始操作之前,最终效应器应在何处。网络确保对象在没有冲突的情况下稳定地定位。我们还设置了mask_threshold和object_threshold的默认值,以控制拟议的GRASP候选人的数量。提出了模板抓取姿势的列表后,我们使用QWEN-VL [2]通过使用机器翻译模型[3]提示当前图像框架来检测目标对象。此检测应用于来自不同相机的所有重新渲染观点或观点。然后,我们将这些帧连接到单个图像中,将每个子图像用右上角的数字注释。接下来,我们将带有几次演示的GPT-4V API调用,并且任务目标提示GPT-4V输出所选数量的视点,这些视点为采样抓取姿势提供了最无用的视图以实现子任务。使用选定的观点,我们通过将最终效果通过运动计划者移动到采样的抓握姿势来执行掌握。
视觉模型(VLM)的在线测试时间适应(OTTA)最近引起了人们的注意,以利用沿流观察到的数据,以改善未来的预测。不幸的是,现有方法依赖于数据集特异性的超参数,从而大大限制了它们对看不见的任务的适应性。为了响应,我们提出了在线高斯适应(OGA),这是一种新颖的方法,该方法使用高斯分布来对视觉特征的可能性进行建模,并将零摄影先验纳入可启动的最大a后验(MAP)估计框架中,并与所有数据集中的固定超参数一起使用。我们证明,在大多数数据集和运行中,OGA优于最先进的方法。此外,我们表明,将OTTA与流行的几弹技术结合起来(一种实用但被忽视的先前研究环境)是非常有益的。此外,我们的实验研究表明,由于所有OTTA方法在运行中观察到的实质性可变性,常见的OTTA评估方案的平均性能在每个数据集中最多要超过三个。因此,我们主张更多的索式评估实践,包括增加运行的数量和考虑其他定量指标,例如我们提出的预期尾巴准确性(ETA),计算为最差10%的运行中的平均准确性。我们希望这些贡献将鼓励OTTA社区中更严格,更多样化的评估实践。代码可在https://github.com/cfuchs2023/oga上找到。
对象导航(ObjectNav)要求代理在看不见的环境中导航以找到查询对象。许多以前的方法试图通过依靠经过跨越或强化学习来解决此任务,在该学习中,它们在具有近距离对象的有限家庭数据集上进行了培训。然而,尚未解决两个主要挑战:了解自由形式的自然语言指令,要求开放式观察,并以零拍的方式推广到新环境。旨在解决这两个挑战,在本文中,我们提出了OpenFM- NAV,这是一个基于零照射对象导航的基于odel m ODEL M ODEL的框架。我们首先释放了大型语言模型(LLMS)的推理能力,以从满足用户需求的自然语言指令中提取拟议的观察。然后,我们利用大型视觉语言模型(VLM)的普遍性来积极地从场景中发现和脱离候选对象,建立多功能语义得分图(VSSM)。然后,通过对VSSM进行常识推理,我们的方法可以对场景进行有效的语言引导探索和剥削,并最终达到目标。通过利用基础模型的推理和概括,我们的方法可以理解自由形式的人类指示并在不同环境中进行有效的开放式零射门导航。在HM3D ObjectNAV基准上进行的广泛实验表明,我们的方法超过了所有指标上的所有强基础,证明了我们方法的有效性。1此外,我们执行真实的机器人演示,以验证我们方法对现实环境的开放定点性和普遍性。
在微调T2I模型上进行对齐方式,但没有重新调整任何人类反馈。Dream-057 Sync背后的关键见解是利用视觉语言mod- 058 ELS(VLMS)的进步,该eLS(VLMS)可以识别生成的图像和用户的输入060文本之间的细粒度差异-059 CIE [7,20]。在高水平上直观地,我们的方法可以将061视为具有人为反馈(RLHF)的强化学习的可扩展版本;正如Llama2 [49] 063使用人类反馈进行了迭代精制一样,DreamSync 064使用VLMS的反馈改善了T2I模型,除了065,而无需加固学习。066给定了一组文本提示,T2i模型首发-067每个提示都有多个候选图像。DreamSync 068使用两个069 VLM自动评估这些生成的图像。第一个测量世代的忠诚070对文本[7,20],而第二个则测量美学071质量[23]。最佳世代被收集并使用072使用参数有效的lora 073 Finetuning [19]。使用新的FineTuned T2I模型,我们重新进行了多个迭代的整个过程:生成IM-075年龄,策划新的填充设置,然后再次进行Finetune。076我们使用最新的基准-077分和人类评估进行广泛的实验。我们使用两个T2I模型SDXL [37]和SD V1.4 [39]实验Dreamsync 078。两种模型的结果079都表明Dreamsync增强了Align-080
我们进入了一个快速发展的人工智能和机器学习时代,大型语言模型(LLM),视觉语言模型(VLM)和生成性AI越来越多地与我们的生活交织在一起。这些强大的工具具有彻底改变无数领域的潜力 - 从医疗保健到交通,教育到娱乐,我们的工作空间再到房屋。,但没有它的危险就不会产生这种巨大的潜力。我们目睹了由于缺乏鲁棒性,效率和公平性,AI/ML模型未达到我们的期望。例如,微软的AI聊天机器人的“ tay”开始掠夺攻势和不适当的内容,成为AI对虚假功能的敏感性的惊人例子。同样,自动驾驶汽车已经显示出对对抗扰动的脆弱性 - 从战略上放置在停车标志上的简单贴纸欺骗了这些AI模型,以将其错误分类。此外,当面对分配变化时,许多AI模型都步履蹒跚,无法将其从训练到现实世界的条件推广到现实状况,这证明了AI经常记录的斗争,从而识别出代表性不足的群体的面孔。这些模型的效率是增殖AI应用时代的另一个关键问题。由于计算资源和数据隐私是重大限制,我们需要精益且具有数据效率的模型。此外,随着AI模型继续影响医疗保健,招聘和执法等关键领域的决策,公平已成为不可谈判的要求。最近的变压器模型尽管具有令人印象深刻的功能,但由于其对计算资源的需求和广泛的培训数据而臭名昭著,这使我们迫切需要有效的模型设计,数据利用和学习过程。长期公平性尤其具有挑战性,因为这些AI系统经常会遇到随着时间的流逝而不断发展的数据分布,这可能会导致其公平标准偏离。
摘要 - 随着大型语言模型(LLM),视觉模型(VLM)和其他一般基础模型的最新兴起,多模式,多任务体现的代理的潜力越来越大,可以在不同的环境中以自然语言作为输入来运作。一个这样的应用区是使用自然语言说明的室内导航。尽管最近进展,但由于所需的空间推理和语义理解,该问题仍然具有挑战性,尤其是在可能包含许多属于细粒类的对象的任意场景中。为了应对这一挑战,我们策划了3D场景(VLA-3D)的视觉和语言引导动作的最大现实世界数据集(VLA-3D),包括超过11.5k的现有数据集中的3D室内室内室内,2350万个启发式化的启发式化的启发式语义生成的语义关系,对象之间,综合构成了综合典型的参考性。我们的数据集由处理过的3D点云,语义对象和房间注释,场景图,可通航的自由空间注释以及参考语言语句,这些语言语言专门针对独立于视图的空间关系,以消除歧义对象。这些功能的目标是专门帮助导航的下游任务,尤其是在现实系统中,必须在不断变化的场景和不完美的语言的开放世界中保证某种级别的鲁棒性。我们还旨在使该数据集有助于开发交互式代理,这些互动代理都可以响应命令并提出有关场景的问题并回答问题。我们使用当前的最新模型基准测试数据集,以获得性能基线。所有要生成和可视化数据集的代码均公开发布1。随着该数据集的发布,我们希望为语义3D场景中的进度提供资源,这对变化是可靠的,这将有助于开发交互式室内导航系统。