摘要。利用大型视觉模型(VLM)的有效表示来完成各种下游任务,引起了人们越来越多的关注。在该研究领域中,软提示学习已成为有效地适应VLM(例如剪辑)的代表性方法,例如图像分类。但是,大多数现有的及时学习方法都学习无法解释的文本令牌,这些文本令牌无法满足医疗保健等高风险场景中可解释的人工智能(XAI)的严格解释性要求。为了解决这个问题,我们提出了一个新颖的可解释的提示学习框架,该框架通过在多个差异方面对齐图像,可学习的提示和临床概念驱动的提示来利用医学知识。此外,我们的框架通过从大型语言模型中引起知识来解决缺乏宝贵的概念注释,并为提示提供了视觉和文字解释。在各种数据集上进行的广泛的实验和可解释性分析,有或没有概念标签,表明我们的方法同时实现了卓越的诊断性能,灵活性和解释性,并阐明了基础模型在促进XAI方面的有效性。该代码可在https://github.com/tommy-bie/xcoop上找到。
大语言模型(LLM)和视觉语言模型(VLM)的最新突破已经展示了有希望的近视,以执行各种任务。此类模型通常在大型数据集上进行培训,其中包括数十个具有多种任务的图像文本对。但是,它们在特定于任务域(例如放射学)上的性能仍然不足。尽管最近很少有作品探讨了基于LLMS的对话医学模型,但它们主要集中于基于文本的分析。在本文中,我们介绍了Xraygpt,这是一种会话医学视觉语言(VLMS)模型,可以分析和回答有关胸部二世图的开放性问题。具体来说,我们将两个医学视觉编码器与微调的LLM保持一致,以实现视觉对话能力,以对X光片和医学知识的理解为基础。为了改善胸部X光片数据的对齐,我们从自由文本放射学报告中生成了217K互动和高质量的摘要。进行了广泛的实验,以验证XRaygpt的优点。为进行专家评估,经过认证的医生在测试子集上评估了我们的XRaygpt的产出,结果表明,超过70%的响应是科学准确的,平均得分为4/5。我们的代码和模型可在以下网址提供:https://github.com/mbzuai-oryx/xraygpt
学习通才体现的代理,能够解决不同领域中的多种任务是一个长期存在的问题。强化学习(RL)很难扩大规模,因为它需要为每个任务进行复杂的奖励设计。相比之下,语言可以以更自然的方式指定任务。当前的基础视觉模型(VLMS)通常需要进行微调或其他适应性,这是由于显着的域间隙在实施情况下被采用的。但是,此类域中缺乏多模式数据代表了开发用于具体应用的基础模型的障碍。在这项工作中,我们通过介绍多模式基础世界模型来克服这些问题,能够将基础VLM的表示和对齐为RL的潜在生成世界模型的潜在空间,而无需任何语言注释。最终的代理学习框架GenRL允许人们通过视觉和/或语言提示指定任务,将其扎根在体现的域的动态中,并学习想象中的相应行为。通过机车和操纵域中的大规模多任务基准测试评估,GenRL可以通过语言和视觉提示来实现多任务概括。此外,通过引入无数据的政策学习策略,我们的方法为使用生成世界模型的基础政策学习奠定了基础。
视觉模型(VLM)的最新进步在弥合计算机视觉和自然语言处理之间的差距方面取得了重大飞跃。然而,传统的VLM通过对有限和嘈杂的图像文本对进行对比学习训练,通常缺乏空间和语言的理解,可以很好地推广到密集的视觉任务或更少的通用语言。我们的方法,坚实的基础剪辑(SF-CLIP),通过隐式建立对经过大量单峰数据训练的基础模型的可靠的视觉和语言理解来避免此问题。sf-clip将对比的图像文本预测与大型基础文本和视觉模型的掩盖知识蒸馏。这种方法可以指导我们的VLM开发强大的文本和图像表示。结果,SF-CLIP显示出异常的零射击分类精度,并增强了图像和文本检索能力,为在YFCC15M和CC12M上训练的VIT-B/16的新最新状态。此外,在语义分割任务中,密集的每个斑点监督增强了我们的零射击和线性探针的性能。我们模型的一个了不起的方面是它的多语言能力,尽管主要接受了英语数据的培训,但通过多种语言的强劲检索结果证明了这一点。我们通过选择性地应用掩盖的蒸馏和教师单词嵌入的继承来实现所有这些改进,而无需牺牲培训效率。
旨在开发一种可推广的计划方法,以进行偏爱的多对象重排。对个性化家庭对象重排的事先研究收集了模拟或人类演示的特定任务数据集,并试图匹配此数据集中存在的偏好[1,15,16,23]。然而,策划大量的人类示范数据集具有多种偏好是具有挑战性的。可能的偏好空间有效地无限。的偏好是高度的,并且取决于个人的身心质量。因此,收集代表所有用户偏见的数据集都是具有挑战性的。此外,这些偏好可能是复杂且抽象的。例如,某人首选的桌面设置可能基于可访问性,视觉美学或文化和传统规则。因此,以可推广的方式学习或建模这些偏好是不平凡的。最后,偏好通常被指定。通常会发出诸如“帮助我设置晚餐餐桌”之类的命令,但并不表明一个人喜欢为除了应该用硅胶设置的孩子以外的所有人使用陶瓷菜肴。以可操作性的方式详尽而明确地交流此类偏爱可能是乏味的,需要很难生产的精确语言。最近进入视觉和语言基础模型(VLM)为所有这三个问题提供了解决方案。我们在单步表设置任务上介绍了此方法的初始结果,并找到了我们方法的概念概念。我们希望开发一种可推广的个性化家庭重排的方法,即1)样品复杂性低2)能够建模有关对象重新安排的抽象和复杂偏好,3)即使根据指定的说明,也可以制定这些任务计划。大型语言模型(LLM)和在互联网量表数据上预处理的VLM已被证明可以有效解决无明确培训的无数任务。具体来说,将LLM与文本学习[3]相结合[3]在制定任务计划方面取得了长足的进步,这些任务计划可以在几次拍摄中根据易于指定的人类偏好[32]解决一般的多对象重排任务并根据这些任务解决这些任务。我们提出了一种初始方法,该方法利用了Internet规模验证的VLM中的这些最新进步,以根据个人喜好解决多对象重排任务,即使这些偏好尚未完全指定。
伴有路易尸体(DLB)和阿尔茨海默氏病(AD)的痴呆症是老年人中的两种常见神经退行性疾病。既与大脑中蛋白质异常沉积有关,这些疾病的诊断可能具有挑战性,尤其是在区分它们时,因为它们在早期阶段表现出相似的症状。脑MRI提供了详细的大脑结构图像,从而识别与神经退行性疾病相关的结构变化。深度学习在分析这些图像,实现准确的预测和解释方面表现出了巨大的希望。是最近出现的大规模预训练的视觉模型(VLMS),由于其可概括的视觉和文本表示,它们的性能显着。
预测行人行为是确保自动驾驶汽车安全性和可靠性的关键。尽管通过从注释的视频框架序列中学习深入学习方法,但他们通常无法完全掌握行人与交通之间的动态相互作用,但可以进行准确的预测。这些模型也缺乏细微的常识推理。此外,这些模型的数据集的手动注释既昂贵又挑战,以适应新情况。视觉语言模型(VLM)的出现,由于其先进的视觉和因果推理技能,引入了这些问题的有希望的替代方案。据我们所知,这项研究是第一个在自主驱动的行人行为预测的概述中对VLM进行定量和定性评估的研究。 我们在公开可用的Pedes-Trian数据集上评估GPT-4V(ISION):JAAD和Wideview。 我们的定量分析重点是GPT-4V预测当前和未来帧中行人行为的能力。 该模型以零拍的方式达到了57%的精度,尽管令人印象深刻,但仍落后于最新的域特异性模型(70%),以预测行人交叉行动。 定性,GPT-4V表现出令人印象深刻的处理和解释综合交通情况,区分各种脚步行为以及检测和分析组的能力。 但是,它面临着挑战,例如难以检测较小的脚步 - 评估行人与自我车辆之间的相对运动。据我们所知,这项研究是第一个在自主驱动的行人行为预测的概述中对VLM进行定量和定性评估的研究。我们在公开可用的Pedes-Trian数据集上评估GPT-4V(ISION):JAAD和Wideview。我们的定量分析重点是GPT-4V预测当前和未来帧中行人行为的能力。该模型以零拍的方式达到了57%的精度,尽管令人印象深刻,但仍落后于最新的域特异性模型(70%),以预测行人交叉行动。定性,GPT-4V表现出令人印象深刻的处理和解释综合交通情况,区分各种脚步行为以及检测和分析组的能力。但是,它面临着挑战,例如难以检测较小的脚步 - 评估行人与自我车辆之间的相对运动。
域的概括(DG)旨在解决源和目标域之间的分布变化,而Cur-Currand DG方法默认是从源和目标域共享相同类别的数据的设置。nev-但是,在实际情况下,从目标域中存在看不见的类。为了解决此问题,已经出现了开放式域概括(OSDG),并且已经完全提出了几种方法。但是,与DG方法相比,大多数措施的方法采用了具有略有改进的复杂体系结构。最近,在通过微调范式的DG中引入了视觉模型(VLM),但用大型视力模型消耗了大型的训练开销。因此,在本文中,我们创新了知识从VLMS转移到轻质视觉模型,并通过从三种表达式(包括得分,类别和实例(SCI)(SCI)的三种观点引入扰动蒸馏(PD)来提高鲁棒性,称为SCI-PD。此外,以前的方法是由具有相同和固定拆分的基准定向的,忽略了源域之间的局限性。这些方法可以通过我们提出的新的基准混合域概括(HDG)和一种新型的度量H 2 -CV造成急剧性能的衰减,它们构建了var-ous拆卸以全面评估算法的鲁棒性。广泛的实验表明,我们的方法在多PLE数据集上优于最先进的算法,尤其是在数据稀缺时提高了鲁棒性。1。简介
摘要:导航研究中的一个难以捉摸的目标是建立一个智能代理,该智能代理可以理解包括自然语言和IM的多模式说明,并执行有用的导航。为了实现这一目标,我们研究了一个广泛有用的导航任务,我们称之为多模式指令导航,该导航带有恶魔之旅(MINT),其中通过预先录制的演示视频提供了先验的环境。视觉语言模型(VLM)的最新进展在实现这一目标方面表现出了有希望的途径,因为它展示了感知和推理多模式输入的能力。为了解决薄荷,我们提出了移动性VLA,这是一种层次视觉语言行动(VLA)导航政策,将环境理解和长篇小说VLM的常识推理能力结合在一起,以及基于拓扑图的强大的低级导航策略。高级策略由一个长篇小说VLM组成,该VLM将演示游览视频和多模式用户指令作为输入,以在旅行视频中找到目标框架。接下来,一个低级策略使用目标框架和构造的拓扑图来在每个时间步中生成机器人动作。我们在836M 2现实世界环境中评估了移动性VLA,并表明Mobility VLA在以前未解决的多模式指令中具有很高的端到端成功率,例如“我应该在哪里返回?”拿着一个塑料箱。可以在此处找到一个展示移动性VLA的视频:youtu.be/-tof Q8 5S
[97] Soroush Nasiriany*,Fei Xia*,Wenhao Yu*,Ted Xiao*,Jacky Liang,Ishita Dasgupta,Annie Xie,Danny Driess,Ayzaan Wahid,ayzaan Wahid,Zhuo XU,Zhuo Xu,Quan Vuong,Quan Vuong,Quan Vuong,Tingnan Zhang,tingnan Zhang pere pere,pere pere,pere thang pere des pere gee deed pere, Xu,Sean Kirmani,Yuke Zhu,Andy Zeng,Karol Hausman,Nicolas Heess,Chelsea Finn,Sergey Levine,Brian Ichter*。Pivot:迭代视觉提示引起了VLMS的知识知识。国际机器学习会议(ICML),2024年。