摘要。我们提出了一种新颖的提示范式 DetToolChain,以释放多模态大型语言模型 (MLLM)(例如 GPT-4V 和 Gemini)的零样本物体检测能力。我们的方法包括一个受高精度检测先验启发的检测提示工具包和一个用于实现这些提示的新思路链。具体来说,工具包中的提示旨在引导 MLLM 关注区域信息(例如放大)、根据测量标准读取坐标(例如叠加尺子和圆规)以及从上下文信息中进行推断(例如叠加场景图)。基于这些工具,新的检测思路链可以自动将任务分解为简单的子任务,诊断预测并规划渐进式框细化。我们的框架的有效性在一系列检测任务中得到了证明,尤其是在困难情况下。与现有的最先进方法相比,使用我们的 DetToolChain 的 GPT-4V 可将最先进对象检测器的 AP 50 在 MS COCO Novel 类集(用于开放词汇检测)上提高 21.5%,在 RefCOCO val 集(用于零样本指称表达理解)上提高 24.23%,在 D-cube 描述对象检测 FULL 设置上提高 14.5% AP。代码将在接受后发布。
我们是否充分利用多模式大语模型(MLLM)中视觉编码器的潜力?MLLM最近在多模式理解中的出色表现引起了学术界和行业的广泛关注。在当前的MLLM大鼠种族中,重点似乎主要是语言方面。我们目睹了较大和更高质量的指导数据集的兴起,以及大型LLM的参与。然而,很少关注的注意力指向MLLM使用的视觉信号,通常被认为是冷冻视觉编码器提取的最终高级特征。在本文中,我们介绍了密集的连接器 - 一种简单,有效且插件的视觉语言连接器,通过利用多层视觉特征来显着增强现有MLLM,并以最少的额外计算开销。在此基础上,我们还提出了有效的密集连接器,该连接器的性能与Llava-V1.5相当,只有25%的视觉令牌。此外,我们的模型仅在图像上进行了训练,还展示了视频理解中出色的零拍功能。各种视觉编码器,图像分辨率,训练数据集量表,不同尺寸的LLM(2.7b→70b)以及MLLM的不同架构(e。g。,llava-v1.5,llava-next和mini-gemini)验证了我们方法的多功能性和可扩展性,从而在19个图像和视频基准中实现了最先进的性能。我们希望这项工作将提供宝贵的经验,并成为未来MLLM开发的基本模块。代码可在https://github.com/hjyao00/denseconnector上找到。
受到多模式大语言模型(MLLM)的令人印象深刻的力量的吸引,公众越来越多地利用它们来提高日常工作的效率。尽管如此,当在现实世界中部署这些模型时,MLLM的脆弱性不安全说明带来了巨大的安全风险。在本文中,我们在评估,攻击和防御图像和文本上的评估,攻击和防御方面进行了趋势调查。我们首先介绍了MLLM在图像,文本以及安全性理解的概述,这有助于研究人员了解我们调查的详细范围。然后,我们查看评估数据集和指标,以确保MLLM的安全性。接下来,我们可以介绍与MLLM的安全性相关的攻击和防御技术。最后,我们解决了一些未解决的问题,并讨论了诺言的研究指示。相关论文是在https://github.com/isxinliu/awesome-mllm-safety上收集的。
本研究旨在全面审查和经验评估多模式大语模型(MLLM)和大型视觉模型(VLM)在运输系统的对象检测中的应用。在第一个折叠中,我们提供了有关MLLM在运输应用中的潜在好处的背景,并在先前的研究中对当前的MLLM技术进行了全面审查。我们强调了它们在各种运输方案中对象检测中的有效性和局限性。第二倍涉及在运输应用程序和未来方向中概述端到端对象检测的概述。在此基础上,我们提出了对三个现实世界传输问题测试MLLM的经验分析,其中包括对象检测任务,即道路安全属性提取,安全至关重要的事件检测和热图像的视觉推理。我们的发现提供了对MLLM性能的详细评估,揭示了优势和改进领域。最后,我们讨论了MLLM在增强运输中对象检测方面的实际限制和挑战,从而为该关键领域的未来研究和发展提供了路线图。
摘要 - 车辆运动计划是自动驾驶技术的重要组成部分。当前基于规则的车辆运动计划方法在常见的情况下令人满意地表现出色,但努力将其推广到长尾情况。同时,基于学习的方法尚未在大规模闭环场景中实现优于基于规则的方法的优越性能。为了解决这些问题,我们提出了基于多模式大语言模型(MLLM)的第一个中高中计划系统。mllm被用作认知剂,将类似人类的知识,解释性和常识推理引入闭环计划中。具体来说,Plana-Gent通过三个核心模块利用了MLLM的力量。首先,环境变换模块构建了鸟类视图(BEV)地图和从环境中作为输入的基于车道的文本描述。第二,推理引擎模块从场景理解到侧面和纵向运动指令中引入了一个分层的思想,最终导致计划器代码生成。最后,集成了一个反射模块,以模拟和评估生成的计划者,以降低MLLM的不确定性。Planagent具有MLLM的常识推理和概括能力,这使其有效地应对常见和复杂的长尾方案。我们提出的Planagent对大规模和具有挑战性的NUPLAN基准进行了评估。全面的实验集令人信服地表明,Planigent在闭环运动计划任务中的表现优于现有的最新面积。代码将很快发布。
索引术语 - 规范语言模型,医学实践,多种模式,人工智能摘要 - LARGE语言模型(LLMS)已从基于文本的系统到多模式平台迅速发展,并影响了包括医疗保健在内的各个部门。这项全面的审查探讨了LLM到多模式大语模型(MLLM)的发展及其在医学实践中的影响。我们检查了医疗保健中MLLM的当前格局,在临床决策支持,医学成像,患者参与和研究中分析其应用。评论强调了MLLM在整合各种数据类型(例如文本,图像和音频)中的独特功能,以提供对患者健康的更全面的见解。我们还解决了MLLM实施面临的挑战,包括数据限制,技术障碍和道德考虑。通过确定关键的研究差距,本文旨在指导数据集开发,模态对准方法和建立道德准则等领域的未来调查。随着MLLM继续塑造医疗保健的未来,了解它们的潜力和局限性对于他们负责和有效地融入医学实践至关重要。索引术语 - 多种语言模型(MLLM),医学成像,临床决策支持,患者参与,数据整合
摘要 - 以各种内容,编辑样式和工件为特征的短形式视频的兴起,对基于学习的盲目视频质量评估(BVQA)模型构成了重大挑战。多模式大型语言模型(MLLM)以其出色的概括能力而闻名,提出了有希望的解决方案。本文的重点是有效利用预定的MLLM进行短形式视频质量评估,预处理和响应变异性的影响,以及将MLLM与BVQA模型相结合的见解。我们首先研究了框架预处理和采样技术如何影响MLLM的性能。然后,我们引入了一种基于轻量学习的集合方法,该方法可适应从MLLM和最先进的BVQA模型中进行预测。我们的结果表明,通过提出的集合方法表现出了优越的概括。此外,对内容感知的集合权重的分析强调,某些视频特征并未完全由现有的BVQA模型完全代表,从而揭示了潜在的方向以进一步改善BVQA模型。索引术语 - 视频质量评估,短形式视频,多模式大语模型,内容吸引合奏
摘要 - 作为深度学习技术的进步自主驾驶(AD),现有的AD方法遇到了性能限制,尤其是在处理角案例,可解释性和验证能力中,这对于连接和自动驾驶汽车的安全至关重要。多模式大语言模型(MLLM)表现出了非凡的理解和推理能力,为克服传统AD算法面临的挑战提供了一个变革性的机会。我们对MLLM在AD中的应用进行了全面研究,探索了它们解决传统AD算法面临的关键挑战的潜力。我们构建了一个视觉问题 - 回答数据集,用于模型调整,以解决MLLM中幻觉和逻辑分析不良问题。然后,我们将广告决策过程分解为场景的理解,预测和决策,允许MLLM构建链条,以逐步制定决策。随后,我们提出了一个新的框架,使模型能够在有限的本地计算资源,很少的射击,多模式和复杂方案的条件下执行广告任务,从而增强了未来AD系统部署的功能。我们广泛的实验和深度分析证明了MLLM的AD的显着优势。我们还讨论了现有方法的优势和劣势,并在AD中提供了对MLLM的详细前景。
摘要 — 当今的模拟/混合信号 (AMS) 集成电路 (IC) 设计需要大量人工干预。多模态大型语言模型 (MLLM) 的出现已在各个领域展现出巨大潜力,表明它们也适用于简化大规模 AMS IC 设计。使用 MLLM 自动生成 AMS 电路的瓶颈是缺乏描述原理图-网表关系的综合数据集。因此,我们设计了一种将原理图转换为网表的自动技术,并创建了数据集 AMSNet,其中包括晶体管级原理图和相应的 SPICE 格式网表。随着规模的不断扩大,AMSNet 可以显著促进 MLLM 在 AMS 电路设计中的应用探索。我们已经公开了当前版本的数据库和相关的生成工具,两者都在迅速扩展。索引术语 — AMS 电路设计、MLLM、电路拓扑、前端设计
大型语言模型(LLM)革命性的自然语言处理(NLP)应用程序正在扩展到多模式输入的领域。由于它们解释图像的影响,多模式LLMS(MLLM)主要用于视觉任务。当前,MLLM尚未扩展到针对特定领域的视觉任务,这需要对视觉信息有更明确的理解。我们开发了一种将特定于域的视觉和视觉语言数据集形成的方法中的统一问题答案格式,称为视觉询问回答指令(VQA-IN),从而将MLLM扩展到特定于域的任务。使用较小版本的LLMS(SLLMS),将VQA-IN应用于训练多个MLLM架构。实验结果表明,所提出的方法在域特定的视觉任务上达到了高分度量,同时还以多任务方式保持其在视觉任务上的性能。