如何从“从头开始”训练视觉语言模型 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

如何从“从头开始”训练视觉语言模型

2026年3月13日 16:30 33 Comments

深入探讨如何微调纯文本语言模型以*查看*图像如何从“从头开始”训练视觉语言模型一文首先出现在《走向数据科学》上。

来源:走向数据科学

改造一个小型的纯文本语言模型，并赋予它视觉的力量。这篇文章是总结我所有的学习，并深入研究现代视觉语言模型背后的网络架构。

代码开源，可以查看文末的GitHub链接。还有一个 30 分钟的 YouTube 配套视频，以视觉丰富的形式解释了整篇文章。

另外，除非另有说明，本文中的所有图片均由作者制作。

等等，你真的要“从头开始训练”吗？

是的……我的意思是不……这有点微妙。

2026 年的研究实验室不再从“头”开始训练多模态模型。同时教授模型视觉和（文本）语言实在太昂贵了！它需要更多的数据、计算、时间和金钱。此外，它通常会导致较差的结果。

相反，实验室采用现有的预训练纯文本语言模型，并对其进行微调以提供“视觉功能”。从理论上（和实践）来看，这更具计算效率。

尽管数据密集度较低，但对纯文本 LM 进行微调以突然开始看到图像肯定会引发蠕虫。

我们如何嵌入图像，即将其转换为神经网络可以理解的数字表示？

我们如何调整图像嵌入以与文本兼容？

我们如何调整文本模型的权重，使其保留之前的世界知识，同时还可以从图像嵌入生成文本？

这些模块是：

图像主干：将原始图像转换为嵌入的模型。

适配器层：这些模型将图像嵌入转换为“文本兼容”嵌入。这是主要的挑战部分——使用什么架构、什么损失函数等。

语言层：我们将训练该语言模型来输入适应的嵌入并从中生成文本。

我们来一一讨论。

图像主干的目标很简单：

训练输入现有的主干数据模型的力量所有的原始图像小型的图像背后的丰富的视觉的更多的视觉功能文本转换计算效率架构神经网络嵌入的突然开始密集度嵌入视觉主要的适应的适配器语言模型实验室