Mantis：交错的多图像指令调整___XiaoMi-AI 助力科研平台

Mantis：交错的多图像指令调整

可下载资源数量

已经购买

下载数量：1

单价	0 2.0
Coupon	100% 0%
Total	0 2.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

Mantis：交错的多图像指令调整

¥ 2.0

热度

大型多模型模型（LMM）在单图像视觉语言任务中显示出了很好的结果。但是，他们解决多图像视觉语言任务的能力尚待改进。OpenFlamingo，EMU2和IDEFICS等现有的LMM通过对数亿个既没有有效又不有效的嘈杂的交织图像文本数据进行预训练，从而获得了多图像的能力。在本文中，我们旨在通过使用学术级别的资源进行指导调整来构建强大的多图像LMM。因此，我们精心构建包含721k多图像指导数据的螳螂教学，以培训螳螂模型家族。教学调整使螳螂具有不同的多图像技能，例如共同参考，比较，推理和时间理解。我们评估了8个多图像基准和6个单图像基准的螳螂。Mantis -IDEFICS2可以在所有多图像基准上实现SOTA结果，并击败最强的多图像基线，即IDEFICS2-8B平均13个绝对点。值得注意的是，IDEFICS2-8B已在140m的交织多图像数据上进行了预训练，该数据比Mantis-Instruct大200倍。我们观察到螳螂在持有的基准和持有的基准上表现出色，这表明其概括能力。我们进一步评估了单图像基准上的Mantis，并证明Mantis在与COGVLM和EMU2相当的情况下还保持了强劲的单像性能。我们的结果表明，多图像能力不一定是通过大规模的预训练获得的，而是通过低成本的指导调整可以获得它们。螳螂的培训和评估为未来的工作铺平了道路，以提高LMMS的多图像能力。

添加pdf代下载 VIP点击下载文件

Mantis：交错的多图像指令调整

主要关键词

图像低成本有效的指导低成本的 EMU2 提高不同的大规模强大的数据进行图像数据调整螳螂文本数据 LMM 相当的语言 IDEFICS2 Mantis 任务未来的能力大规模的 8B 现有的评估基准基准的

Mantis：交错的多图像指令调整PDF文件第1页

Mantis：交错的多图像指令调整PDF文件第2页

Mantis：交错的多图像指令调整PDF文件第3页

Mantis：交错的多图像指令调整PDF文件第4页

Mantis：交错的多图像指令调整PDF文件第5页

可下载资源数量

已经购买

下载数量：1

Mantis：交错的多图像指令调整

Mantis：交错的多图像指令调整

相关文件推荐

使用Photoshop调整图像大小

更清晰的图像发光特技无人机指令

胰岛素剂量调整和实验室订购指令

指令 - 付给了所有 -

对调整文本到图像扩散模型的深度奖励监督

通过大型语言模型的指令调整生物医学中的实体识别

指令

JPI指令

图像过滤

发票指令

智能控制器指令

同时从图像观测值

图像隐志

飞行操作指令

调整核糖体

图像列表

新的NIS2指令

合同调整

RGB图像

扫描图像

指令5：替代交易

铺设指令

一般DFNV指令

使用图像

什么是NIS2指令？

使用图像

图像stegnography

调整体内

指令方案

使用图像

XiaoMi-AI