摘要 - 大型模式生成AI在学术界和行业中都受到了越来越多的关注。尤其是,两个主要的技术家族是:i)多模式大语言模型(MLLM),例如GPT-4V,它显示出具有多模式理解的不断增强的能力; ii)诸如Sora之类的扩散模型表现出显着的多模式力量,尤其是在视觉产生方面。因此,出现了一个自然的问题:是否有可能同时拥有一个统一的模型来理解和产生?为了回答这个问题,在本文中,我们首先提供了MLLM和扩散模型的详细审查,包括其概率建模程序,多模式体系结构设计以及对图像/视频大型语言模型以及文本到图像到图像/视频/视频的高级应用程序。然后,我们讨论了统一模型的两个重要问题:i)统一模型是否应采用自动回归或扩散概率建模,ii)ii)ii)该模型是否应利用密集的体系结构或专家(MOE)架构的混合来更好地支持生成和理解,这是两个目标。我们进一步提供了建立统一模型并分析其潜在优势和缺点的几种可能策略。我们还总结了现有的大规模多模式数据集,以便将来更好地预测模型。为了结束本文,我们提出了几个挑战的未来方向,我们认为这可以为多态生成AI的持续发展做出贡献。
多模式大型语言模型(MLLM)已成为研究界的重要领域,鉴于它们在处理和推理非文本数据(包括图像和视频)方面的处理能力。这项研究旨在通过引入DraveGpt4(一种基于LLMS的新型端到端端驾驶系统)来扩展MLLM的应用到自动驾驶领域。cap-pable促进了对车辆动作的促进,提供相关的推理,并有效地解决了用户提出的各种问题。此外,DriveGPT4以端到端的方式预测低级车辆控制式signals。通过使用定制的视觉说明调谐数据集实现这些高级功能,该数据集是专门针对自主驾驶功能量身定制的,并结合了混合调节培训策略。DriveGPT4代表了利用LLM的努力来开发可解释的端到端自主驾驶解决方案。在BDD-X数据集上进行的评估展示了DriveGPT4的质量和定量性能。从事域特异性数据的微调使DriveGpt4能够在与GPT4-V形成鲜明对比的自主驾驶接地方面产生接近甚至可以证明的结果。代码和数据集将公开可用。
摘要。扩大视觉模型的规模已成为获得更强大的视觉表示形式的事实上的标准。在这项工作中,我们讨论了不需要更大的视力模型的观点。首先,我们演示了S镇定的S平原的力量(S 2),从而预先训练和冷冻较小的视力模型(例如,,vit-b或vit-l),在多个图像尺度上运行,可以胜过较大的模型(例如,VIT-H或VIT-G)在分类,分割,深度估计,多模式LLM(MLLM)基准和机器人操作中进行分类,分割,深度估计。值得注意的是,S 2在V ∗基准上的MLLM详细了解中实现了最先进的性能,超过了诸如GPT-4V之类的模型。我们检查了S 2是与模型尺寸的缩放相比,S 2是首选缩放方法。虽然较大的模型在硬性示例上具有更好的概括,但我们表明,多尺度较小模型的模型可以很好地近似较大的视觉模型。这表明当前大型预训练模型所学的大多数(如果不是全部)也可以从多尺度较小的模型中获得。我们的结果表明,多尺度较小的模型具有与较大模型的可比学习能力,并且具有S 2的预训练较小模型可以匹配甚至超过较大模型的优势。我们发布了一个可以在任何视觉模型上应用一条代码的python软件包:https://github.com/bfshi/scaling_on_scales。
多模式大语言模型(MLLM)的最新进展已导致在开发GUI代理的一般任务(例如Web浏览和移动电话使用)方面取得了很大的进步。但是,它们在专业域中的应用仍未得到探索。这些专业的工作流程为GUI感知模型引入了独特的Challenges,包括高分辨率显示器,较小的目标尺寸和复杂的环境。在本文中,我们介绍了ScreenSpot-Pro,这是一种新的基准测试,旨在严格评估高分辨率实行设置中MLLM的接地能力。基准包括来自带有专家宣传的专业领域的真实高分辨率图像。它涵盖了五个行业和三个操作系统的23个应用程序。iSting GUI接地模型在此数据集上的性能较差,最佳模型仅达到18.9%。我们的实验表明,从策略上降低搜索区域会提高准确性。基于这种见解,我们提出了Screenseeker,这是一种视觉搜索方法,它可以使强大计划者的GUI知识指导级联的搜索,并以48.1%的速度实现了最先进的性能,而无需进行任何附加培训。我们希望我们的基准和发现能够推动GUI代理的专业应用开发。
为了实现这些雄心勃勃的目标,公众用户需要对多模式提示文档、图像、音频和视频信号进行数据分析和机器认知。工业参与者需要将智能云与升级的 AIoT 传感功能集成在一起。这些进步依赖于最近发布的数百个多模式大型语言模型 (MLLM) 的有效使用。很好的例子包括特斯拉 AI Robotaxi、帮助残疾人的 BMI 以及智能城市、数字经济和公共医疗服务中的其他创新。他将根据全球进展情况评估中国与人工智能相关的经济的优势和劣势。
摘要 - 在过去的一年中,大型语言模型(LLM)和多模式大语言模型(MLLM)的领域已取得了重大进步,尤其是在其应用自主驾驶时。这些模型在处理和与复杂信息交互方面展示了出色的能力。在自主驾驶中,LLM和MLLM被广泛使用,需要访问敏感的车辆数据,例如精确的位置,图像和道路条件。此数据将传输到基于LLM的推理云进行高级分析。然而,由于数据和隐私漏洞的保护主要取决于LLM的固有安全措施,而无需对LLM的推理输出进行额外审查或评估,因此对数据安全产生了关注。尽管其重要性,但LLM在自动驾驶中的安全方面仍未得到充实。解决这一差距,我们的研究通过使用多代理LLM方法引入了一个新型的自动驾驶汽车安全框架。该框架旨在保护与自动驾驶汽车相关的敏感信息免受潜在泄漏的影响,同时还确保LLM输出遵守驱动法规并与人类价值保持一致。它包括过滤无关的查询并验证LLM输出的安全性和可靠性的机制。利用此框架,我们评估了11个大型语言驱动的自主驾驶线索的安全性,隐私和成本方面。此外,我们对这些驾驶提示进行了质量检查测试,这些驾驶提示成功证明了该框架的功效。
对比性语言图像预训练(剪辑),它擅长于跨领域和模态提取开放世界的表示,已成为各种愿景和多模式任务的基础。然而,最近的研究表明,剪辑具有严重的视觉缺陷,例如几乎无法区分方向,数量,颜色,结构等。这些视觉缺点还限制了剪辑上构建的多模式大语模型(MLLM)的感知能力。主要原因可能是由于缺乏文本的独特性和图像的多样性,用于训练剪辑的图像文本对固有地存在偏差。在这项工作中,我们为剪辑模型提供了一种简单的培训方法,该方法在很大程度上通过自我监督的扩散过程克服了其视觉缺陷。我们介绍了Diva,该Diva使用Di Flupusion模型作为vrip ssistant的v。具体来说,Diva利用文本到图像扩散模型的生成反馈来优化剪辑表示,仅具有图像(没有相应的文本)。我们证明,Diva提高了夹在具有挑战性的MMVP-VLM基准上的表现,该基准在很大程度上评估了细粒度的视觉能力(例如g。,3-7%↑),并在多模式理解和分割任务上增强了MLLM和视觉模型的性能。对29个图像分类和检索基准测试的广泛评估证实,我们的框架保留了夹子强的零击功能。该代码将在https://github.com/baaivision/diva上找到。
摘要。大型语言模型(LLMS)的进步已经开放了自然语言处理的新边界,尤其是在医疗保健等特殊领域。在本文中,我们提出了基于课程的微调(ICFT)框架,以增强医学大语言模型(MLLM)的发电能力。基于课程的学习,双阶段记忆协调和参数效果,以实现从一般语言知识到强大的领域特定专业知识的逐步过渡。跨不同医学NLP任务的实验结果,包括问题,偏好分类和响应产生,表明ICFT始终超过最先进的基准,从而提高了准确性和效率。进一步的分析揭示了该框架概括不见数据,减少错误并提供各种相关的医学响应的能力。这些发现将ICFT建立为适应LLM的强大和可扩展解决方案,以对现实世界中的医疗保健应用程序造成实际的利益。
摘要。我们解决了脑驱动研究中普遍存在的挑战,从文献难以恢复准确的空间信息并且需要特定主题的模型这一观察出发。为了应对这些挑战,我们提出了 UMBRAE,一种统一的多模态脑信号解码。首先,为了从神经信号中提取实例级概念和空间细节,我们引入了一种高效的通用脑编码器进行多模态脑对齐,并从后续的多模态大语言模型 (MLLM) 中恢复多个粒度级别的对象描述。其次,我们引入了一种跨主题训练策略,将特定主题的特征映射到一个共同的特征空间。这使得模型可以在没有额外资源的情况下对多个主题进行训练,甚至比特定主题的模型产生更好的结果。此外,我们证明这支持对新主题的弱监督适应,而只需要总训练数据的一小部分。实验表明,UMBRAE 不仅在新引入的任务中取得了优异的成绩,而且在成熟的任务中也优于方法。为了评估我们的方法,我们构建了一个全面的大脑理解基准 BrainHub 并与社区分享。我们的代码和基准可以在 https://weihaox.github.io/UMBRAE 上找到。
尽管在大型语言模型(LLMS)的文本嵌入的压缩表示中已取得了重大进步,但多模式LLMS(MLLMS)中视觉令牌的压缩仍然很大程度上被忽略了。在这项工作中,我们介绍了有关在这些模型中有关视觉令牌和有效培训的冗余分析的研究。我们的初始实验表明,在测试阶段消除多达70%的视觉令牌,仅通过平均池,仅导致在视觉问题上降低3%的降低3%,从而回答GQA基准上的准确性,这表明在视觉上下文中有显着的冗余。解决此问题,我们介绍了视觉上下文压缩机,这减少了视觉令牌的数量,以提高训练和推理效率而不牺牲性能。为了最大程度地减少视觉令牌压缩而导致的信息损失,同时保持训练效率,我们将Llavolta作为轻巧和分期的训练方案开发,该方案结合了阶段的视觉上下文压缩,以逐步压缩视觉令牌从严重压缩到在训练过程中的轻度压缩,在测试时不会损失信息损失。广泛的实验表明,我们的方法在图像语言和视频语言理解中都提高了MLLM的性能,同时也大大降低了培训成本并提高了推理效率。