MLLM关键词检索结果

利用多模态大型语言模型 (MLLM) 彻底改变人工智能

Revolutionizing AI with Multimodal Large Language Models (MLLMs)

假设你有一份 X 光检查报告,你需要了解自己受了什么伤。一种选择是去看医生,理想情况下你应该去看医生,但出于某种原因,如果你不能去看医生,你可以使用多模态大型语言模型 (MLLM),它将处理你的 X 光扫描并准确地告诉你你受了什么伤 […]

雪貂 - UI 2:掌握跨平台的通用用户界面理解

Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms

建立用于用户界面(UI)理解的通才模型,这是由于各种基础问题(例如平台多样性,解决方案变化和数据限制)而具有挑战性的。在本文中,我们介绍了雪貂UI 2,这是一种多模式大语言模型(MLLM),旨在跨越包括iPhone,Android,Android,iPad,WebPage和AppleTV在内的广泛平台上的通用UI理解。 Ferret-UI 2以雪貂UI的基础为基础,引入了三个关键创新:对多种平台类型的支持,通过自适应缩放和高级任务的高分辨率感知……

MM1.5:多模式LLM微调

MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-Tuning

我们提出了MM1.5,这是一个新的多模式大语言模型(MLLMS),旨在增强文本丰富的图像理解,视觉参考和接地以及多图像推理的能力。在MM1体系结构的基础上,MM1.5采用了以数据为中心的方法来模型培训,系统地探索了整个模型培训生命周期中各种数据混合物的影响。这包括用于连续预训练的高质量OCR数据和合成字幕,以及用于监督微调的优化视觉指导数据混合物。我们的型号范围为1B…

mia bench:在评估多模式LLMS

MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs

我们介绍了MIA Bench,这是一种新的基准测试,旨在评估多模式大型语言模型(MLLM),以严格遵守复杂的说明。我们的基准包括一组400个图像推出对,每个基准都旨在挑战模型对分层指令的遵守,以产生满足特定要求的模式的准确响应。各种各样的最先进的MLLM的评估结果显示出绩效的显着差异,突出了改善教学保真度的领域。此外,我们创建了额外的培训数据和…

接地在动作中的多模式大语模型

Grounding Multimodal Large Language Models in Actions

多模式大语言模型(MLLM)已证明了包括体现AI在内的许多领域的广泛功能。在这项工作中,我们研究了如何将MLLM最佳地扎根于不同的实施方案及其相关的作用空间,以利用MLLM的多模式世界知识。我们首先通过统一体系结构和动作空间适配器的镜头概括了许多方法。对于连续的动作,我们表明,学识渊博的令牌化可以实现足够的建模精度,从而在下游任务上产生最佳性能。对于离散的动作…

从多模式LLM到通才体现的药物:方法和课程

From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons

我们研究了多模式大语言模型(MLLM)的能力,以解决超出传统语言和视觉任务的不同领域,这些模型通常受到培训。具体而言,我们的重点在于体现的AI,游戏,UI控制和计划等领域。为此,我们引入了将MLLM适应通才体现的代理(GEA)的过程。 GEA是一个单一的统一模型,能够通过多物种作用令牌将自己跨越这些各种领域的自身地接地。 GEA在大量的体现经验数据集中接受了监督学习和…

欺骗你的多模态 LLM 有多容易?对欺骗性提示的实证分析

How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts

多模态大型语言模型 (MLLM) 的显著进步并未使它们免受挑战,特别是在处理提示中的欺骗性信息的情况下,因此在这种情况下会产生幻觉反应。为了定量评估这种脆弱性,我们提出了 MAD-Bench,这是一个精心策划的基准,包含 1000 个测试样本,分为 5 个类别,例如不存在的对象、对象计数和空间关系。我们对流行的 MLLM 进行了全面分析,从 GPT-4v、Reka、Gemini-Pro 到开源模型……

使用 LLM 实现时间序列推理

Towards Time-Series Reasoning with LLMs

多模态大型语言模型 (MLLM) 已在视觉等领域的理解和推理方面取得了许多进展,但我们尚未看到时间序列取得如此广泛的成功。尽管之前对时间序列 MLLM 的研究在时间序列预测中表现出色,但很少有研究展示 LLM 如何用于自然语言的时间序列推理。我们提出了一种新颖的多模态时间序列 LLM 方法,该方法可以学习跨各个领域的可推广信息,并具有强大的零样本性能。首先,我们在… 之上训练一个轻量级时间序列编码器

对比本地化语言图像预训练

Contrastive Localized Language-Image Pre-Training

对比语言-图像预训练 (CLIP) 是一种广受赞誉的方法,用于训练视觉编码器生成图像/文本表示,以促进各种应用。最近,CLIP 已被广泛用作多模态大型语言模型 (MLLM) 的视觉主干,以连接图像输入以进行语言交互。CLIP 作为视觉语言基础模型的成功依赖于在图像级别对齐网络爬取的嘈杂文本注释。然而,这样的标准可能不足以满足需要细粒度视觉表示的下游任务,尤其是……

使用 DocOwl2 优化文档理解:一种新颖的高分辨率压缩架构

Optimizing Document Understanding with DocOwl2: A Novel High-Resolution Compression Architecture

理解多页文档和新闻视频是人类日常生活中的一项常见任务。为了解决这种情况,多模态大型语言模型 (MLLM) 应该具备理解具有丰富视觉文本信息的多幅图像的能力。然而,理解文档图像比自然图像更具挑战性,因为它需要更细粒度的感知。使用 DocOwl2 优化文档理解:一种新颖的高分辨率压缩架构,首次出现在 AI Quantum Intelligence 上。

EAGLE:探索使用混合编码器的多模态大型语言模型的设计空间

EAGLE: Exploring the Design Space for Multimodal Large Language Models with a Mixture of Encoders

准确解释复杂视觉信息的能力是多模态大型语言模型 (MLLM) 的关键重点。最近的研究表明,增强的视觉感知可显著减少幻觉并提高分辨率敏感任务(例如光学字符识别和文档分析)的性能。最近的几个 MLLM 通过利用视觉编码器的混合来实现这一点。尽管 […]EAGLE:探索使用混合编码器的多模态大型语言模型的设计空间首先出现在 Unite.AI 上。

Ferret-UI:基于多模式法学硕士 (LLM) 的扎实移动 UI 理解

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

多模态大型语言模型 (MLLM) 的最新进展值得关注,然而,这些通用领域的 MLLM 往往在理解用户界面 (UI) 屏幕和与用户界面 (UI) 屏幕有效交互的能力方面存在不足。在本文中,我们介绍了 Ferret-UI,这是一种专为增强对移动 UI 屏幕的理解而量身定制的新型 MLLM,具有引用、基础和推理功能。鉴于 UI 屏幕通常具有比自然图像更长的纵横比,并且包含较小的感兴趣对象(例如图标、文本),我们在 Ferret 之上加入了“任何分辨率”以……

UI-JEPA:通过屏幕上的用户活动主动感知用户意图

UI-JEPA: Towards Active Perception of User Intent Through Onscreen User Activity

从一系列用户界面 (UI) 操作中生成用户意图是全面理解 UI 的核心挑战。多模态大型语言模型 (MLLM) 的最新进展已导致该领域取得了实质性进展,但它们对大量模型参数、计算能力和高延迟的要求使其不适用于需要轻量级、低延迟或高度隐私的设备解决方案的场景。此外,缺乏高质量的数据集阻碍了此类轻量级模型的开发。为了应对这些挑战,我们提出了 UI-JEPA,一种……

ProcTag:一种面向数据的 AI 方法,用于评估文档指令数据的有效性

ProcTag: A Data-Oriented AI Method that Assesses the Efficacy of Document Instruction Data

有效评估文档指令数据以训练文档视觉问答 (VQA) 中的大型语言模型 (LLM) 和多模态大型语言模型 (MLLM) 是一项重大挑战。现有方法主要是面向文本的,侧重于指令的文本内容而不是执行过程,这限制了它们全面评估质量和功效的能力。文章 ProcTag:一种评估文档指令数据功效的数据导向型 AI 方法首先出现在 AI Quantum Intelligence 上。

MIA-Bench:面向多模态 LLM 评估后的更好指导

MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs

我们推出了 MIA-Bench,这是一种新的基准,旨在评估多模态大型语言模型 (MLLM) 严格遵守复杂指令的能力。我们的基准由 400 个不同的图像提示对组成,每个对都经过精心设计,旨在挑战模型对分层指令的遵守情况,从而生成满足特定请求模式的准确响应。来自各种最先进的 MLLM 的评估结果揭示了性能的显著差异,突出了指令保真度方面需要改进的地方。此外,我们创建了额外的训练数据和……

MG-LLaVA:一种先进的多模态模型,擅长处理多种粒度的视觉输入,包括对象级特征、原始分辨率图像和高分辨率数据

MG-LLaVA: An Advanced Multi-Modal Model Adept at Processing Visual Inputs of Multiple Granularities, Including Object-Level Features, Original-Resolution Images, and High-Resolution Data

多模态大型语言模型 (MLLM) 在视觉任务中有各种应用。MLLM 依靠从图像中提取的视觉特征来理解其内容。当提供包含较少像素的低分辨率图像作为输入时,它会将较少的信息转换为这些模型以供使用。由于这种限制,这些模型通常需要 MG-LLaVA:一种先进的多模态模型,擅长处理多种粒度的视觉输入,包括对象级特征、原始分辨率图像和高分辨率数据,该帖子首先出现在 AI Quantum Intelligence 上。