MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer
能够理解和生成视觉内容的统一多模式大语言模型 (LLM) 拥有巨大的潜力。然而,现有的开源模型通常会受到这些功能之间性能权衡的影响。我们提出了 Manzano,一个简单且可扩展的统一框架,通过将混合图像标记器与精心策划的训练方案相结合,大大减少了这种紧张。单个共享视觉编码器为两个轻量级适配器提供数据,这些适配器在公共…内生成用于图像到文本理解的连续嵌入和用于文本到图像生成的离散标记。