详细内容或原文请订阅后点击阅览
Transformer?扩散?输血!
最新多模态转输模型的简单介绍最近,Meta 和 Waymo 发布了他们的最新论文 —Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model,该论文将流行的 Transformer 模型与扩散模型相结合,用于多模态训练和预测目的。与 Meta 之前的工作一样,Transfusion 模型基于带有早期融合的 Llama 架构,它同时采用文本 token 序列和图像 token 序列,并使用单个 Transformer 模型来生成预测。但与以前的技术不同,Transfusion 模型对图像 token 的处理方式不同:图像 token 序列由预训练的变分自动编码器部分生成。Transformer 对图像序列的注意力是双向的,而不是因果的。带有预训练任务的 Transfusion 模型架构。文本预训练是下一个单词预测任务。图像预训练是去噪扩散任务。图片来源:https://www.arxiv.org/pdf/2408.11039下面我们来详细讨论一下。我们将首先回顾基础知识,例如自回归和扩散模型,然后深入研究Transfusion架构。自回归模型如今,大型语言模型(LLM)主要基于Transformer架构,该架构是在2017年的《Attention is All You Need》论文中提出的。Transformer架构包含两部分:编码器和解码器。Transformer架构。左 - 编码器;Ri
来源:None基于VAE的图像输血
输血模型的核心部分是输入图像的扩散和变压器之间的融合。首先,将图像分为8*8个贴片的序列;每个贴片被传递到预训练的VAE编码器中,以将“压缩”“压缩”到8元素的潜在矢量表示中。然后,将噪声添加到潜在表示中,并通过线性层/U-NET编码器进一步处理以生成“嘈杂” X_T。第三,变压器模型处理嘈杂的潜在表示的序列。最后,在使用VAE解码器生成“ true” X_0图像之前,另一个线性/U-NET解码器将输出反向处理。
https://www.arxiv.org/pdf/2408.11039 在实际实现中,图像(BOI)令牌的开始和图像的末端(EOI)令牌的末端被填充到图像表示序列的两侧,然后再加入文本令牌。图像训练的自我注意力是双向关注,而文本令牌的自我注意力是因果关系。在训练阶段,图像序列的损失是DDPM损失,而其余文本令牌则使用LM损失。 那为什么要打扰呢?为什么我们需要这样一个复杂的程序来处理图像补丁令牌?本文解释说,文本和图像的令牌空间不同。虽然文本令牌是离散的,但图像令牌/贴片自然是连续的。在以前的ART中,在融合到变压器模型中之前,需要“离散”图像令牌,而直接集成扩散模型可以解决此问题。 虽然文本令牌是离散的,但图像令牌/补丁自然是连续的
https://www.arxiv.org/pdf/2408.11039
在实际实现中,图像(BOI)令牌的开始和图像的末端(EOI)令牌的末端被填充到图像表示序列的两侧,然后再加入文本令牌。图像训练的自我注意力是双向关注,而文本令牌的自我注意力是因果关系。在训练阶段,图像序列的损失是DDPM损失,而其余文本令牌则使用LM损失。那为什么要打扰呢?为什么我们需要这样一个复杂的程序来处理图像补丁令牌?本文解释说,文本和图像的令牌空间不同。虽然文本令牌是离散的,但图像令牌/贴片自然是连续的。在以前的ART中,在融合到变压器模型中之前,需要“离散”图像令牌,而直接集成扩散模型可以解决此问题。虽然文本令牌是离散的,但图像令牌/补丁自然是连续的