MLLM关键词检索结果

MIA-Bench:面向多模态 LLM 评估后的更好指导

MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs

我们推出了 MIA-Bench,这是一种新的基准,旨在评估多模态大型语言模型 (MLLM) 严格遵守复杂指令的能力。我们的基准由 400 个不同的图像提示对组成,每个对都经过精心设计,旨在挑战模型对分层指令的遵守情况,从而生成满足特定请求模式的准确响应。来自各种最先进的 MLLM 的评估结果揭示了性能的显著差异,突出了指令保真度方面需要改进的地方。此外,我们创建了额外的训练数据和……

MG-LLaVA:一种先进的多模态模型,擅长处理多种粒度的视觉输入,包括对象级特征、原始分辨率图像和高分辨率数据

MG-LLaVA: An Advanced Multi-Modal Model Adept at Processing Visual Inputs of Multiple Granularities, Including Object-Level Features, Original-Resolution Images, and High-Resolution Data

多模态大型语言模型 (MLLM) 在视觉任务中有各种应用。MLLM 依靠从图像中提取的视觉特征来理解其内容。当提供包含较少像素的低分辨率图像作为输入时,它会将较少的信息转换为这些模型以供使用。由于这种限制,这些模型通常需要 MG-LLaVA:一种先进的多模态模型,擅长处理多种粒度的视觉输入,包括对象级特征、原始分辨率图像和高分辨率数据,该帖子首先出现在 AI Quantum Intelligence 上。