MLLMS的密集连接器-NIPS论文-Neurips 2024__

MLLMS的密集连接器-NIPS论文-Neurips 2024

可下载资源数量

已经购买

下载数量：1

单价	0 3.0
Coupon	100% 0%
Total	0 3.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

MLLMS的密集连接器-NIPS论文-Neurips 2024

¥ 3.0

热度

我们是否充分利用多模式大语模型（MLLM）中视觉编码器的潜力？MLLM最近在多模式理解中的出色表现引起了学术界和行业的广泛关注。在当前的MLLM大鼠种族中，重点似乎主要是语言方面。我们目睹了较大和更高质量的指导数据集的兴起，以及大型LLM的参与。然而，很少关注的注意力指向MLLM使用的视觉信号，通常被认为是冷冻视觉编码器提取的最终高级特征。在本文中，我们介绍了密集的连接器 - 一种简单，有效且插件的视觉语言连接器，通过利用多层视觉特征来显着增强现有MLLM，并以最少的额外计算开销。在此基础上，我们还提出了有效的密集连接器，该连接器的性能与Llava-V1.5相当，只有25％的视觉令牌。此外，我们的模型仅在图像上进行了训练，还展示了视频理解中出色的零拍功能。各种视觉编码器，图像分辨率，训练数据集量表，不同尺寸的LLM（2.7b→70b）以及MLLM的不同架构（e。g。，llava-v1.5，llava-next和mini-gemini）验证了我们方法的多功能性和可扩展性，从而在19个图像和视频基准中实现了最先进的性能。我们希望这项工作将提供宝贵的经验，并成为未来MLLM开发的基本模块。代码可在https://github.com/hjyao00/denseconnector上找到。

添加pdf代下载 VIP点击下载文件