我们提出了PCA基础,这是一种多模式决策 - 用于评估多模式大型语言模型(MLLM)的整体功能的基准。偏离了专注于简单任务和单个模型功能的预先基准,PCA基础台面引起了三种复杂的方案:自动驾驶,国内机器人和开放世界游戏。给定的任务说明和不同的文本,该模型必须在推理链中无缝地掌握感知,齿轮和行动的多种功能,以做出准确的决策。此外,PCA基础台上的错误定位功能,在感知,知识或推理等领域的审查模型不准确。这增强了部署MLLM的可靠性。为了平衡评估的准确性和效率,我们可以使用PCA-Eval,一种自动评估程序,并评估10个普遍的MLLM。结果揭示了开源模型与强大的专有模型(如GPT-4 Vision)之间的显着性能差异。为了打扮,我们介绍了体现的实体演化(EIE),这是一个自动框架,用于在多模式体现的环境中综合说明调谐示例。EIE在PCA板台上有7,510个培训示例,并提高了开源MLLM的性能,偶尔超过了GPT-4 Vi-Sion(决策准确性+3%),从而确保EIE的有效性。我们的发现表明,诸如GPT4-Vision之类的强大MLLM在实施剂中显示了决策的希望,为MLLM研究开辟了新的途径。所有基准数据和评估代码均公开。
摘要 - 由于操作员的熟练程度和成像情况的差异,超声检查的次数急剧增加,低质量的超声成像已大大增加,因此对诊断准确性造成了严重负担,甚至导致重新诊断的风险在关键病例中重新开始诊断。为了帮助临床医生选择高质量的超声图像并确保准确的诊断,我们引入了超声波QBench,这是一种全面的基准,该基准在系统上可以评估多模式大型语言模型(MLLMS),以实现超声图像的质量评估任务。超声 - Qbench建立了从不同来源收集的两个数据集:IVUSQA,由7,709张图像和心脏硫酸氢菌组成,包含3,863张图像。这些图像包含常见的超声成像工件由专业的Ul-Trasound专家注释,并分为三个质量:高,中和低。为了更好地评估MLLM,我们将质量评估任务分解为三个维度:定性分类,定量评分和比较评估。对7个开源MLLM和1个原则的评估表明,MLLM具有超声图像质量分类中低级视觉任务的初步功能。我们希望这种基准能激发研究界的深入研究和增强MLLM在医学成像任务中的未开发潜力。索引术语 - 大型大语言模型(MLLM),质量评估,超声图像
设计奖励功能是强化学习(RL)实践的关键但具有挑战性的任务,通常要求领域的努力和实质性的努力。最近的研究探索了大型语言模型(LLMS)通过进化搜索技术生成奖励功能的利用(Ma等人,2023)。但是,这些方法忽略了多模式信息的潜力,例如图像和视频。尤其是先前的方法主要依赖于RL环境中的数值反馈来进行进化,忽略了训练过程中所遵循的视觉数据。这项研究通过采用多模式的大语言模型(MLLM)来制作针对各种RL任务量身定制的重新功能,从而引入了一种新颖的方法。该方法涉及向MLLM提供RL环境代码以及其图像作为上下文和任务信息,以奖励候选人。然后,所选代理人接受培训,并作为对MLLM的反馈提供了来自环境的数值反馈以及最佳策略的记录视频。通过通过进化搜索采用迭代反馈机制,MLLM始终完善奖励函数以最大程度地提高准确性。对两种不同的代理进行测试指出了我们的方法比以前的方法相比,这本身超过了83%(Ma等人,2023)由人类专家设计的奖励功能。
多模式大型语言模型(MLLM)在视觉教学调整中取得了显着的成功,但由于大型语言模型(LLM)骨干的自动回归解码,它们的推论既耗时又耗时。传统的加速推理方法,包括模型压缩和从语言模型加速的迁移,通常会损害输出质量或有效整合多模式特征的face Challenges。为了解决这些问题,我们提出了AASD,这是一个新型的框架,用于加速使用精制的KV缓存并在MLLM中对准投机解码。我们的方法利用目标模型的缓存键值(KV)对提取生成草稿令牌的重要信息,从而有效地投机解码。为了减少与长多模式令牌序列相关的计算负担,我们会引入KV投影仪,以压缩KV缓存,同时保持代表性保真度。此外,我们设计了一种目标放射线注意机制,以优化草稿和目标模型之间的对齐方式,从而以最小的计算开销来实现真实推理情景的好处。主流MLLM的广泛实验表明,我们的方法在不牺牲准确性的情况下达到了2倍推理的速度。这项研究不仅为加速MLLM推断提供了有效且轻巧的解决方案,而且还引入了一种新颖的对齐策略,用于在多模式背景下进行投机解码,从而为未来的有效MLLM研究奠定了强大的基础。代码可在https://anonymon.4open.science/r/asd-f571上使用。
多模式大语模型(MLLM)具有复杂的语言和视觉数据表现出了显着的理解和推理能力。这些进步刺激了建立通才的机器人MLLM熟练理解复杂人类指示并完成各种体现任务的愿景。然而,由于机器人平台上可用的计算和内存能力通常有限,为现实世界机器人开发MLLM是具有挑战性的。相比之下,MLLM的推断涉及存储数十亿个Pa-Rameters并执行巨大的计算,并施加了巨大的硬件需求。在我们的论文中,我们试图通过利用有趣的观察来应对这一挑战:相对容易的情况构成了控制机器人以完成各种任务的大部分程序,并且通常需要更小的模型才能获得正确的机器人动作。以这种观察的启发,我们提出了一个d ynally e xit框架,用于r obotot v ision-l an an an an an an an an an an an an a an an an a an an a an a an an a ction模型(deer-vla或Simpple Deer),该模型会根据每个情况自动调整激活的MLLM的大小。该方法利用了MLLM中的多exit档案,该方法一旦在特定情况下激活了模型的适当大小,该模型就可以终止处理,从而避免了进一步的冗余计算。此外,我们开发了建立鹿的早期终止标准的新型算法,以预定义的要求(例如,计算成本)(即,功耗)以及峰值计算消耗(即,延迟)和GPU内存使用量。这些增强功能确保鹿在不同的资源限制下有效运行,同时保持竞争性能。此外,我们设计了一种量身定制的培训方法,用于在此类多EXIT体系结构之上集成时间信息,以合理地进行预先操作。在加尔文机器人操纵基准上,鹿表明,LLM的计算成本显着降低了5.2-6.5倍,而LLM的GPU记忆则在2-6倍中,而不会损害性能。代码和检查点可在https://github.com/yueyang130/deer-vla上找到。
多模式的大语言模型(MLLM)在推理方面表现出了令人印象深刻的功能,但具有基本的计算成本,从而限制了它们在资源构成环境中的部署。尽管最近有一些关于提高MLLM效率的效力,但先前的解决方案产生了具有静态准确性和延迟占地面积的模型,因此在响应不同的运行时条件方面的响应不足,特别是由于设备上其他程序执行其他程序而引起的竞争)。为了弥合这一差距,我们介绍了Adallava - 一种自适应推理框架,该框架学会在推理期间在MLLM中动态重新配置操作,以获取输入数据和延迟预算。我们跨越涉及提问,推理和幻觉的多模式基准进行了广泛的实验。我们的结果表明,Adallava可以遵守输入预算,并在运行时实现不同的准确性和延迟权衡。我们的带代码重新租赁的项目网页位于https://zhuoyan-xu.github.io/ada-llava/。
幻觉是对多模态大语言模型(MLLM)的普遍挑战的幻觉,极大地阻碍了他们需要精确判断的真实用法。现有方法可以通过特定设计的数据进行培训,或通过其他来源的特定知识来缓解此问题,从而产生了不可避免的额外费用。在本文中,我们提出了一种新型的MLLM解码方法,该方法基于o-vertust pe nalty和r eTroptoction-llocation策略,它是一种几乎免费的午餐,可以减轻幻觉问题,并没有其他数据,知识,知识或培训。我们的方法始于一个有趣的观察结果,即,大多数幻觉与自我注意力矩阵所表现出的知识聚集作用紧密相关,即MLLM倾向于通过关注一些摘要的代价来产生新的代币,但并非所有以前的代币。这种部分过度信任的倾向会导致忽略图像令牌,并用幻觉描述图像内容。基于观察结果,Opera在梁搜索解码过程中引入了对模型逻辑的惩罚术语,以使Miti-Gate the Trust问题以及回滚策略回顾了在预先生成的令牌中存在摘要令牌的存在,并在必要必要时重新分配给标记。通过广泛的实验,Opera在不同的MLLM和指标上表现出明显的幻觉降低性能,证明其有效性和性质。我们的代码为:https://github.com/shikiw/opera。
摘要 - 机器人视觉应用通常需要广泛的视觉感知任务,例如对象检测,分割和识别。尽管这些单独的任务已经取得了重大进展,但将规定的模型整合到统一的视觉管道中带来了重大的工程挑战和成本。最近,多模式大语言模型(MLLM)已成为各种下游任务的新型骨干。我们认为,利用MLLM的预训练能力可以创建简化的框架,从而减轻对特定于任务的编码器的需求。具体来说,MLLM中的大规模预认证的知识可以更轻松地对下游机器人视觉任务进行微调,并产生出色的性能。我们介绍了配备BEIT-3骨干的Robollm框架,以解决Armbench Challenge中的所有视觉感知任务,这是一个大规模的机器人操纵数据集,涉及有关Real-World Warehouse场景的大规模机器人操作数据集。Robollm不仅胜过现有的基线,而且还大大减轻了与模型选择和调整相关的工程负担。本文中使用的所有代码都可以在https://github.com/longkukuhi/armbench中找到。
研究兴趣我的研究兴趣在于计算机视觉和机器学习的交集。i最近在多模式生成模型的应用和基本限制上工作,包括多模态大语言模型(MLLM,VLM)和多模式嵌入模型(Clip,dinov2)。我对视频,视觉提示和3D理解特别感兴趣。