详细内容或原文请订阅后点击阅览
MANZANO:具有混合视觉分词器的简单且可扩展的统一多模态模型
能够理解和生成视觉内容的统一多模式大语言模型 (LLM) 拥有巨大的潜力。然而,现有的开源模型通常会受到这些功能之间性能权衡的影响。我们提出了 Manzano,一个简单且可扩展的统一框架,通过将混合图像标记器与精心策划的训练方案相结合,大大减少了这种紧张。单个共享视觉编码器为两个轻量级适配器提供数据,这些适配器在公共…内生成用于图像到文本理解的连续嵌入和用于文本到图像生成的离散标记。
来源:Apple机器学习研究能够理解和生成视觉内容的统一多模式大语言模型 (LLM) 拥有巨大的潜力。然而,现有的开源模型通常会受到这些功能之间性能权衡的影响。我们提出了 Manzano,一个简单且可扩展的统一框架,通过将混合图像标记器与精心策划的训练方案相结合,大大减少了这种紧张。单个共享视觉编码器为两个轻量级适配器提供数据,这些适配器在公共语义空间内生成用于图像到文本理解的连续嵌入和用于文本到图像生成的离散标记。统一的自回归 LLM 以文本和图像标记的形式预测高级语义,随后使用辅助扩散解码器将图像标记转换为像素。该架构与理解和生成数据的统一训练方法一起,实现了这两种功能的可扩展联合学习。 Manzano 在统一模型中取得了最先进的结果,并且与专业模型具有竞争力,特别是在文本丰富的评估方面。我们的研究表明,任务冲突最小化,并且通过缩放模型大小获得一致的收益,验证了我们对混合分词器的设计选择。
