VITRON：用于理解的统一像素级视觉 LLM......__

VITRON：用于理解的统一像素级视觉 LLM......

可下载资源数量

已经购买

下载数量：1

单价	0 3.0
Coupon	100% 0%
Total	0 3.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

VITRON：用于理解的统一像素级视觉 LLM......

¥ 3.0

热度

我们提出了 V ITRON，一种通用的像素级视觉 LLM，旨在全面理解、生成、分割和编辑静态图像和动态视频。V ITRON 建立在 LLM 主干之上，在其前端模块中集成了用于图像、视频和像素级区域视觉效果的编码器，同时采用最先进的视觉专家作为其后端，通过它 V ITRON 支持一系列视觉端任务，涵盖从低级到高级的视觉理解到视觉生成。为了确保从 LLM 到后端模块的消息传递有效和精确以进行函数调用，我们提出了一种新颖的混合方法，同时集成离散文本指令和连续信号嵌入。此外，我们为 V ITRON 设计了各种像素级时空视觉语言对齐学习，以达到最佳的细粒度视觉能力。最后，建议使用跨任务协同模块来学习最大化任务不变的细粒度视觉特征，增强不同视觉任务之间的协同作用。 V ITRON 演示了 12 多个视觉任务，并在 22 个数据集上进行了评估，展示了其在四个主要视觉任务集群中的广泛能力。总体而言，这项工作阐明了开发更统一的多模态通才的巨大潜力。

添加pdf代下载 VIP点击下载文件