摘要。近年来,已经在自动驾驶中调查了大型视力和语言模型(VLM),以解决长期存在的问题,包括推理,概括和长尾方案。但是,将VLM的有效整合到自主驾驶框架中仍然是一个悬而未决的问题。在本文中,我们提出了VLP,这是一个新颖的视觉语言规划框架,它利用了大型视觉语言模式来弥合语言理解与自动驾驶之间的差距。VLP是一种训练方法,它通过提出对比度学习目标来提炼VLM的力量到端到端模块化自主驾驶。在开路和闭环任务上进行了广泛的实验,验证了VLP的实用性。尤其是,VLP通过与先前的最佳方法相比,分别在平均L2错误和碰撞率方面,在Nuscenes数据集上实现了状态的端到端计划绩效。
摘要 - 视觉语言模型(VLMS)在理解图像和文本方面具有出色的熟练程度,并基于此类输入生成文本输出,因为它们在网络规模的数据集上进行了培训。它们的机器人应用潜力特别有趣。一个值得注意的例子是RT-2,它是一个能够从给定指令中以文本格式代表的低级操作的系统,以及一系列历史动作和图像观察。为了刺激该领域的进一步研究,我们引入了用于在基于教学的机器人控制中使用VLM的开源实现。此实现支持各种VLM架构,并促进了新模型的直接集成。我们使用我们的框架来训练多个VLM并在物理机器人上进行评估。结果验证了我们框架的实际功效,从而为增强基于教学的机器人控制系统的理解和能力铺平了道路。代码可在以下网址提供:https://github.com/nicolinho/robobovlm。
摘要:图表图像分类是自动化数据提取和从可视化的解释的关键任务,这些任务被广泛用于业务,研究和教育等领域。在本文中,我们评估了卷积神经网络(CNN)和视觉模型(VLM)的性能,鉴于它们在各种图像分类和理解任务中的使用越来越多。,我们构建了25种图表类型的不同数据集,每个数据集包含1,000张图像,并培训了多个CNN体系结构,同时还评估了预训练的VLM的零拍概括能力。我们的结果表明,在经过专门用于图表分类的培训时,CNN胜过VLM,尽管如此,它仍显示出有希望的潜力,而无需特定于任务的培训。这些发现强调了CNN在图表分类中的重要性,同时突出了VLM的进一步微调的未开发潜力,这对于推进自动数据可视化分析至关重要。
摘要本文研究了视觉模型(VLM)在外周血细胞自动形态学分析中的应用。虽然手动显微镜分析仍然是血液学诊断的金标准,但它既耗时又可能会受到观察者间的变化。这项工作旨在开发和评估能够从微观图像中对血细胞进行准确的形态描述的微调VLM。我们的方法论包括三个主要阶段:首先,我们创建了一个合成数据集,该数据集由10,000个外周血细胞图像与专家制作的形态描述配对。第二,我们在三个开源VLMS上使用低级适应性(LORA)和量化Lora(Qlora)进行了微调方法:Llama 3.2,Qwen和Smovlm。最后,我们开发了一个基于Web的界面,用于实用部署。的结果表明,在预先调整后所有模型的所有模型中都有显着改善,QWEN的性能最高(BLEU:0.22,Rouge-1:0.55,Bertscore F1:0.89)。为了确保可访问性并实现正在进行的评估,该模型已被部署为网络空间的Web应用程序,使研究社区可自由使用。我们得出的结论是,微调的VLM可以有效地分析外周血细胞形态,从而为血液学分析提供了标准化的潜力。这项工作建立了一个框架,可以将视觉模型改编为专业的医疗成像任务,这对改善临床环境中的诊断工作流程的影响。完整的实现可在GitHub
摘要。本研究解决了域级逐步学习问题,这是一种现实但具有挑战性的持续学习场景,在该方案中,域分布和目标类别跨任务各不相同。为处理这些不同的任务,引入了预训练的视力语言模型(VLM),以实现其强大的推广性。但是,这会引起一个新问题:在适应新任务时,预先训练的VLMS中编码的知识可能会受到干扰,从而损害了它们固有的零射击能力。现有方法通过在额外的数据集上使用知识蒸馏来调整VLM来解决它,这需要大量计算。为了有效地解决此问题,我们提出了无知的无干扰知识集成(DIKI)框架,从避免避免信息干扰的角度来保留对VLM的预训练的知识。具体来说,我们设计了一种完全残留的机制,可以将新学习的知识注入冷冻的骨干中,同时引发对预训练的知识的不利影响最小。此外,此残差属性可以使我们的分布感知的集成校准方案明确控制来自看不见的分布的测试数据的信息植入过程。实验表明,我们的二基仅使用训练有素的参数超过了当前的最新方法,并且需要较少的训练时间。代码可在以下网址找到:https://github.com/lloongx/diki。
摘要 - 在大规模数据集上进行训练的Vision语言模型(VLMS)在各种视觉识别任务中表现出令人印象深刻的性能。这一进步为某些以自我为中心的任务,零射击以自我为中心的行动识别(ZS-EAR)的表现为著名的表现铺平了道路,这需要VLMS零射击,以识别从更现实的人类环境相互作用中富含第一人称视频的动作。通常,VLM将ZS-EAR作为全球视频文本匹配任务处理,这通常会导致视觉和语言知识的次优比对。我们提出了一种使用VLM的Zs-Ear的精致方法,强调了精细元素概念 - 描述对准,该对齐利用了以Egintric视频中丰富的语义和上下文细节来利用。在这项工作中,我们引入了一个直接但有效的VLM框架,即aka gpt4ego,旨在增强视觉和语言之间的概念和描述的细粒度对齐。具体来说,我们首先提出了一个新的面向自我的文本提示(EGOTP♠)方案,该方案通过将单词级别的类名与良好设计的链条链接的链中的文本提示提示,通过将单词级别的类名为句子级别的上下文描述来有效提示与动作相关的文本上下文语义。此外,我们设计了一种新的面向自我的视觉解析(EGOVP♣)策略,该策略通过在SAM的帮助下将全球级别的图像改进到部分级别的上下文概念来学习与动作相关的视觉 - 上下文语义。广泛的实验证明了GPT4EGO在三个大规模的以egintric视频基准上的表现明显优于现有的VLMS,即,Epic- Kitchens-100(33.2%↑+9。4),EGTEA(39.6%↑+5。 6)。4),EGTEA(39.6%↑+5。6)。5)和Cha-Radesego(31.5%↑+2。此外,从新颖的细粒概念和描述对齐的新机制中受益,GPT4EGO可以通过不断发展的预培训的基础模型的发展来可持续发展。我们希望这项工作可以鼓励以自我为中心的社区对预训练的视觉模型进行更多调查。
视觉提问(VQA)是用户体验的关键,尤其是在改善视觉语言模型(VLMS)的概括能力之后。但在实际设置中使用标准化框架评估应用程序要求的VLM仍然具有挑战性。本文旨在使用端到端框架解决该问题。我们提出VQA360 - 一种源自估计的VQA基准测试的新型数据集,该数据集用任务类型,应用程序域和知识类型注释,以进行全面评估。我们还引入了Goeval,这是一种使用GPT-4O开发的多模式评估度量,与Human判断相关系数为56.71%。我们使用状态VLMS的实验表明,没有任何单个模型都普遍擅长,因此,将正确的选择成为关键的设计决策。专有模型(例如Gemini-1.5-Pro和GPT-4O-Mini)通常优于其他模型,但是诸如InternVL-2-8B和COGVLM-2-LALAMA-3-19B之类的开源模型也表现出竞争优势,同时提供了其他优势。我们的框架工作也可以扩展到其他任务1。
当前用于评估视觉模型(VLM)的基准通常集中在其感知或解决问题的能力上,并忽略了其他关键方面,例如公平,多语言或毒性。此外,他们的评估程序和评估范围有所不同,因此很难比较模型。为了解决这些问题,我们将Helm框架扩展到VLM,以介绍视觉语言模型(VHELM)的整体评估。vhelm汇总了各种数据集,以涵盖9个方面的一个或多个:视觉感知,知识,推理,偏见,公平,多语言,稳健性,毒性和安全性。这样做,我们对这些重要因素中VLM的功能产生了全面的多维视图。此外,我们将标准推理参数,提示方法和评估指标标准化,以实现跨模型的公平比较。我们的框架设计为轻巧且自动,因此评估运行既便宜又快。我们的初始运行评估了21个现有数据集上的22个VLM,以提供模型的整体快照。我们发现了新的关键发现,例如,以效率为中心的模型(例如Claude 3 Haiku或Gemini 1.5 Flash)的表现要比其完整模型(例如Claude 3 Opus或Gemini 1.5 Pro)的差异明显差,但在其他方面进行了评估时没有在偏置基准上进行差异。对于透明度,我们发布了原始模型世代,并在网站上的https://crfm.stanford.edu/helm/vhelm/vhelm/v2.0.1上完成了完整的结果。vhelm旨在成为活的基准,我们希望随着时间的推移继续添加新的数据集和模型。
尽管视觉模型(VLMS)具有多功能视觉效果(VLMS)的功能,但在现有的VLM框架内仍存在两个实质性挑战:(1)缺乏预读和视觉指导调谐方面的任务多样性,以及(2)注释错误和偏见GPT-4综合教学指导性的指导性数据。这两种挑战都导致了诸如不良的普遍性,幻觉和灾难性遗忘之类的问题。为了应对这些挑战,我们构建了v Ision -f LAN,这是迄今为止最多样化的视觉指导调整数据集,包括187个不同的任务和1,664,261个实例,来自学术数据集,每个任务都伴随着专家写作的指导。此外,我们提出了一个两阶段的指令调整框架,其中首先在V Ision -F LAN上对VLM进行了填充,并在GPT-4合成数据上进一步调整。我们发现这个两阶段的调谐框架显着超过了传统的单阶段视觉教学调音框架,并在广泛的多模式评估基准中实现了最新的效果。最后,我们进行了深入的分析以了解视觉指导的调整,我们的发现表明:(1)GPT-4合成数据并不能基本上增强VLMS的功能,而是模型对模型对人类偏爱格式的响应; (2)最小数量(例如1,000)GPT-4合成数据可以有效地使VLM响应与人类偏爱相一致; (3)视觉指导调整主要帮助大语言模型(LLMS)了解视觉特征。我们的数据集和模型可在https://github.com/vt-nlp/ vision-flan上公开获取。
在微调T2I模型上进行对齐方式,但没有重新调整任何人类反馈。Dream-057 Sync背后的关键见解是利用视觉语言mod- 058 ELS(VLMS)的进步,该eLS(VLMS)可以识别生成的图像和用户的输入060文本之间的细粒度差异-059 CIE [7,20]。在高水平上直观地,我们的方法可以将061视为具有人为反馈(RLHF)的强化学习的可扩展版本;正如Llama2 [49] 063使用人类反馈进行了迭代精制一样,DreamSync 064使用VLMS的反馈改善了T2I模型,除了065,而无需加固学习。066给定了一组文本提示,T2i模型首发-067每个提示都有多个候选图像。DreamSync 068使用两个069 VLM自动评估这些生成的图像。第一个测量世代的忠诚070对文本[7,20],而第二个则测量美学071质量[23]。最佳世代被收集并使用072使用参数有效的lora 073 Finetuning [19]。使用新的FineTuned T2I模型,我们重新进行了多个迭代的整个过程:生成IM-075年龄,策划新的填充设置,然后再次进行Finetune。076我们使用最新的基准-077分和人类评估进行广泛的实验。我们使用两个T2I模型SDXL [37]和SD V1.4 [39]实验Dreamsync 078。两种模型的结果079都表明Dreamsync增强了Align-080