视觉指导调整对于赋予多模式大语言模型(MLLMS)的零弹性概括性capabil至关重要。在本文中,我们旨在投资一个基本问题:“什么使良好的视觉说明造就了”。通过一项综合实证研究,我们发现着重于复杂的视觉推理任务的指导在改善MLLM的性能方面特别有效,结果与指导复杂性有关。基于这种见解,我们开发了一种系统的方法来自动创建高质量的复杂视觉推理指令。我们的方法采用合成完整的改革范式,利用多个阶段来逐步提高说明的复杂性,同时保证质量。基于此AP-PRACH,我们创建了具有32K示例的Comvint数据集,并在其中创建了四个mllms。实验结果始终取消了所有组合MLLM的性能,例如MME感知和MME认知的LLAVA分别提高了27.86%和27.60%。我们的代码和数据可在链接上公开获取:https://github.com/rucaibox/comvint。
抽象的多模式大语言模型(MLLM)在广泛的任务中表现出显着的功能,但是尽管它们在地理和地理空间领域中的知识和能力尚未探索,尽管尽管对导航,环境研究,城市发展,城市发展以及灾难响应的广泛收益,但仍有广泛的收益。我们进行了一系列实验,探讨了这些域内MLLM的各种视频功能,特别是专注于边境模型GPT-4V,并在开源对应物上标记了其性能。我们的方法论涉及通过小型的地理基准来挑战这些模型,该基准包括一系列视觉任务,测试了它们在各种综合性方面的能力。分析不仅揭示了此类模型脱颖而出的地方,包括超越人类的实例,而且还揭示了他们步履蹒跚的地方,在地理领域中提供了它们能力的平衡视图。为了启用对未来模型的副训练和评估,我们的基准将公开发布。1
多模式的大语言模型(MLLM)在利用其丰富知识的挑战中面临挑战,因为跨越不同的模式是不平凡的,并且它们的上下文歧义是由于缺乏配对数据而引起的。在基于MLLM的音频生成的背景下,音频文本配对数据集的注释需要大量的人力资源,这是由于音频数据的复杂性,这使与图像text配对数据集相比,此类数据集越来越难以访问。为了解决这些问题,我们提出了一种称为高效生成多模式集成(EGMI)的新技术,该技术仅利用图像 - 文本数据来实现音频生成任务。基于验证的LLM关于文本理解的强大知识,EGMI成功利用图像文本配对的数据集进行跨模式对齐,从而使音频和图像信息之间的交互作用。我们还引入了一个高效的映射网络,称为EGMI映射器,并在生成音频数据时使用它来参与图像信息。因此,我们已经扩大了现有方法的限制,从可伸缩性和灵活性方面。此外,我们已经证明了EGMI最大程度地提高了交叉模式知识,改善对准和样本质量之间的相互作用。
本文介绍了 SceMQA,这是大学入学阶段科学多模态问答的新基准。它解决了现有基准中经常被忽视的一个关键教育阶段,涵盖高中到大学预科阶段。SceMQA 专注于数学、物理、化学和生物等核心科学学科。它融合了多项选择题和自由回答格式,确保对 AI 模型的能力进行全面评估。此外,我们的基准为每个问题提供了特定的知识点,并为每个答案提供了详细的解释。SceMQA 还以独特的方式呈现了具有相同背景但不同问题的问题,以便更彻底、更准确地评估推理能力。在实验中,我们在各种实验环境中评估了开源和闭源的最先进的多模态大型语言模型 (MLLM)。结果表明,需要进一步研究和开发以开发更强大的 MLLM,最强大的模型仅能实现 50% 到 60% 的准确率。我们的基准和分析将在 https://scemqa.github.io/ 上提供。
多模式生成型AI通常涉及在另一种模态中给定输入给定的图像或文本响应。图像文本相关性的评估对于衡量响应质量或对候选响应的排名至关重要。在二元相关性评估中,即,“相关”与“不相关”是一个基本问题。但是,考虑到文本具有多种格式,相关性的定义在不同的情况下有所不同,这是一项具有挑战性的任务。我们发现,多模式的大型语言模型(MLLM)是构建此类评估者的理想选择,因为它们可以灵活地处理复杂的文本格式并掌握适当的任务信息。在本文中,我们介绍了Llava-re,这是与MLLM进行二进制图像文本相关性评估的首次尝试。它遵循LLAVA体系结构,并采用详细的任务指令和多模式IN上下文样本。此外,我们提出了一个新型的二进制相关数据集,该数据集涵盖了各种任务。实验结果验证了我们框架的有效性。
摘要 - 鉴于他们熟练使用非文本数据(包括图像和视频)的熟练程度,大型语言模型(MLLM)已成为研究界的重要领域。本研究旨在通过引入DraveGpt4(一种基于LLMS的新型可解释的最终自动驾驶系统)来扩展MLLM的应用到自动驾驶领域。能够处理多帧视频输入和文本查询,DriveGpt4促进了对车辆动作的解释,提供相关的推理,并有效地解决了用户提出的各种问题。此外,DriveGPT4以端到端方式预测低级车辆控制信号。通过使用定制的视觉说明调谐数据集实现了这些高级功能,该数据集是专门针对自主驾驶应用程序量身定制的,并结合了混合填充培训策略。DriveGpt4代表了利用LLM的开创性努力,以开发可解释的端到端自动驾驶解决方案。在BDD-X数据集上进行的评估展示了DriveGPT4的质量和定量性能。此外,特定于域的数据的精细调整使DriveGpt4在与GPT4-V形成对比时,可以在自主驾驶接地方面产生接近甚至改善的结果。本文的网页可在https://tonyxuqaq.github.io/projects/drivegpt4上找到。
摘要 — 最近,在多模态大型语言模型 (MLLM) 进步的推动下,视觉语言动作模型 (VLAM) 被提出以在机器人操作任务的开放词汇场景中实现更好的性能。由于操作任务涉及与物理世界的直接交互,因此确保此任务执行过程中的鲁棒性和安全性始终是一个非常关键的问题。在本文中,通过综合当前对 MLLM 的安全性研究以及物理世界中操作任务的具体应用场景,我们全面评估了面对潜在物理威胁的 VLAM。具体而言,我们提出了物理脆弱性评估管道 (PVEP),它可以结合尽可能多的视觉模态物理威胁来评估 VLAM 的物理鲁棒性。PVEP 中的物理威胁具体包括分布外攻击、基于排版的视觉提示和对抗性补丁攻击。通过比较 VLAM 在受到攻击前后的性能波动,我们提供了关于 VLAM 如何应对不同物理安全威胁的通用分析。我们的项目页面位于此链接
多模式大型语言模型(MLLM)在各种VQA任务中表现出了令人印象深刻的性能。但是,他们通常缺乏可解释性和在复杂的视觉输入中挣扎,尤其是当输入图像的分辨率很高时,或者当有兴趣的区域可以为回答问题提供关键信息时。为了应对这些挑战,我们收集并介绍了包括438K问答对的大规模视觉COT数据集,并用中间边界框注释,突出了突出了回答问题必不可少的关键区域。此外,将大约98k对以详细的推理步骤注释。重要的是,我们提出了一个多转弯处理管道,该管道动态着眼于视觉输入并提供可解释的思想。我们还引入了相关的基准测试,以评估需要特定局部区域识别的情况下的MLLM。广泛的实验证明了我们框架的有效性,并阐明了更好的推理策略。可在此网页上提供可视化的婴儿床数据集,基准和预培训模型,以支持该领域的进一步研究。
为了我的长期研究目标,我一直致力于在动态现实世界环境中发展体现研究兴趣的IED AI系统和多模式基础模型(例如VLM,MLLM,Di usion模型)的终身适应性。这些系统的目的是可靠,改进,互动和组成,以应对实际,现实世界中的挑战,以更好地了解人类的行为并显着影响我们的日常生活。我的研究兴趣包括以下主题:
摘要 - 多模式大语言模型(MLLM)在许多自动驾驶任务中都表现出令人满意的效果。在本文中,MLLM可用于解决联合语义场景的理解和风险本地化任务,而仅依靠前视图像。在拟议的MLLM-SUL框架中,双分支视觉编码器首先旨在从两种分辨率中提取特征,并且丰富的视觉信息有助于语言模型,以准确描述不同尺寸的风险对象。然后,对于语言生成,美洲驼模型进行了微调,以预测场景描述,其中包含驾驶场景的类型,风险对象的动作以及驱动意图和自我车辆的建议和建议。最终,基于变压器的网络结合了回归令牌,以定位风险对象。在现有的戏剧 - 罗利人数据集和扩展的戏剧-SRIS数据集上进行了广泛的实验表明,我们的方法是有效的,超过了许多基于图像的最新和基于视频的方法。具体来说,我们的方法在现场理解任务中获得了80.1%的BLEU-1分数和298.5%的苹果酒得分,而本地化任务的精度为59.6%。代码和数据集可在https://github.com/fjq-tongji/mllm-sul上找到。