如何从“从头开始”训练视觉语言模型

深入探讨如何微调纯文本语言模型以*查看*图像如何从“从头开始”训练视觉语言模型一文首先出现在《走向数据科学》上。

来源:走向数据科学

改造一个小型的纯文本语言模型,并赋予它视觉的力量。这篇文章是总结我所有的学习,并深入研究现代视觉语言模型背后的网络架构。

代码开源,可以查看文末的GitHub链接。还有一个 30 分钟的 YouTube 配套视频,以视觉丰富的形式解释了整篇文章。

另外,除非另有说明,本文中的所有图片均由作者制作。

等等,你真的要“从头开始训练”吗?

是的……我的意思是不……这有点微妙。

2026 年的研究实验室不再从“头”开始训练多模态模型。同时教授模型视觉和(文本)语言实在太昂贵了!它需要更多的数据、计算、时间和金钱。此外,它通常会导致较差的结果。

相反,实验室采用现有的预训练纯文本语言模型,并对其进行微调以提供“视觉功能”。从理论上(和实践)来看,这更具计算效率。

标准架构

尽管数据密集度较低,但对纯文本 LM 进行微调以突然开始看到图像肯定会引发蠕虫。

  • 我们如何嵌入图像,即将其转换为神经网络可以理解的数字表示?
  • 我们如何调整图像嵌入以与文本兼容?
  • 我们如何调整文本模型的权重,使其保留之前的世界知识,同时还可以从图像嵌入生成文本?
  • 这些模块是:

  • 图像主干:将原始图像转换为嵌入的模型。
  • 适配器层:这些模型将图像嵌入转换为“文本兼容”嵌入。这是主要的挑战部分——使用什么架构、什么损失函数等。
  • 语言层:我们将训练该语言模型来输入适应的嵌入并从中生成文本。
  • 我们来一一讨论。

    1. 图像主干

    图像主干的目标很简单:

    2. 适配器层

    Q-前