我们提出了 V ITRON,一种通用的像素级视觉 LLM,旨在全面理解、生成、分割和编辑静态图像和动态视频。V ITRON 建立在 LLM 主干之上,在其前端模块中集成了用于图像、视频和像素级区域视觉效果的编码器,同时采用最先进的视觉专家作为其后端,通过它 V ITRON 支持一系列视觉端任务,涵盖从低级到高级的视觉理解到视觉生成。为了确保从 LLM 到后端模块的消息传递有效和精确以进行函数调用,我们提出了一种新颖的混合方法,同时集成离散文本指令和连续信号嵌入。此外,我们为 V ITRON 设计了各种像素级时空视觉语言对齐学习,以达到最佳的细粒度视觉能力。最后,建议使用跨任务协同模块来学习最大化任务不变的细粒度视觉特征,增强不同视觉任务之间的协同作用。 V ITRON 演示了 12 多个视觉任务,并在 22 个数据集上进行了评估,展示了其在四个主要视觉任务集群中的广泛能力。总体而言,这项工作阐明了开发更统一的多模态通才的巨大潜力。
主要关键词