摘要 - 多模式大语言模型(MLLM)在许多自动驾驶任务中都表现出令人满意的效果。在本文中,MLLM可用于解决联合语义场景的理解和风险本地化任务,而仅依靠前视图像。在拟议的MLLM-SUL框架中,双分支视觉编码器首先旨在从两种分辨率中提取特征,并且丰富的视觉信息有助于语言模型,以准确描述不同尺寸的风险对象。然后,对于语言生成,美洲驼模型进行了微调,以预测场景描述,其中包含驾驶场景的类型,风险对象的动作以及驱动意图和自我车辆的建议和建议。最终,基于变压器的网络结合了回归令牌,以定位风险对象。在现有的戏剧 - 罗利人数据集和扩展的戏剧-SRIS数据集上进行了广泛的实验表明,我们的方法是有效的,超过了许多基于图像的最新和基于视频的方法。具体来说,我们的方法在现场理解任务中获得了80.1%的BLEU-1分数和298.5%的苹果酒得分,而本地化任务的精度为59.6%。代码和数据集可在https://github.com/fjq-tongji/mllm-sul上找到。
我们是否充分利用多模式大语模型(MLLM)中视觉编码器的潜力?MLLM最近在多模式理解中的出色表现引起了学术界和行业的广泛关注。在当前的MLLM大鼠种族中,重点似乎主要是语言方面。我们目睹了较大和更高质量的指导数据集的兴起,以及大型LLM的参与。然而,很少关注的注意力指向MLLM使用的视觉信号,通常被认为是冷冻视觉编码器提取的最终高级特征。在本文中,我们介绍了密集的连接器 - 一种简单,有效且插件的视觉语言连接器,通过利用多层视觉特征来显着增强现有MLLM,并以最少的额外计算开销。在此基础上,我们还提出了有效的密集连接器,该连接器的性能与Llava-V1.5相当,只有25%的视觉令牌。此外,我们的模型仅在图像上进行了训练,还展示了视频理解中出色的零拍功能。各种视觉编码器,图像分辨率,训练数据集量表,不同尺寸的LLM(2.7b→70b)以及MLLM的不同架构(e。g。,llava-v1.5,llava-next和mini-gemini)验证了我们方法的多功能性和可扩展性,从而在19个图像和视频基准中实现了最先进的性能。我们希望这项工作将提供宝贵的经验,并成为未来MLLM开发的基本模块。代码可在https://github.com/hjyao00/denseconnector上找到。
本研究旨在全面审查和经验评估多模式大语模型(MLLM)和大型视觉模型(VLM)在运输系统的对象检测中的应用。在第一个折叠中,我们提供了有关MLLM在运输应用中的潜在好处的背景,并在先前的研究中对当前的MLLM技术进行了全面审查。我们强调了它们在各种运输方案中对象检测中的有效性和局限性。第二倍涉及在运输应用程序和未来方向中概述端到端对象检测的概述。在此基础上,我们提出了对三个现实世界传输问题测试MLLM的经验分析,其中包括对象检测任务,即道路安全属性提取,安全至关重要的事件检测和热图像的视觉推理。我们的发现提供了对MLLM性能的详细评估,揭示了优势和改进领域。最后,我们讨论了MLLM在增强运输中对象检测方面的实际限制和挑战,从而为该关键领域的未来研究和发展提供了路线图。
摘要。我们提出了一种新颖的提示范式 DetToolChain,以释放多模态大型语言模型 (MLLM)(例如 GPT-4V 和 Gemini)的零样本物体检测能力。我们的方法包括一个受高精度检测先验启发的检测提示工具包和一个用于实现这些提示的新思路链。具体来说,工具包中的提示旨在引导 MLLM 关注区域信息(例如放大)、根据测量标准读取坐标(例如叠加尺子和圆规)以及从上下文信息中进行推断(例如叠加场景图)。基于这些工具,新的检测思路链可以自动将任务分解为简单的子任务,诊断预测并规划渐进式框细化。我们的框架的有效性在一系列检测任务中得到了证明,尤其是在困难情况下。与现有的最先进方法相比,使用我们的 DetToolChain 的 GPT-4V 可将最先进对象检测器的 AP 50 在 MS COCO Novel 类集(用于开放词汇检测)上提高 21.5%,在 RefCOCO val 集(用于零样本指称表达理解)上提高 24.23%,在 D-cube 描述对象检测 FULL 设置上提高 14.5% AP。代码将在接受后发布。