fastvlm:有效的视觉编码视觉语言模型

视觉语言模型(VLMS)可与文本输入一起视觉理解。它们通常是通过将视觉令牌从验证的视觉编码传递到预处理的大型语言模型(LLM)通过投影层来构建的。通过利用视觉编码器的丰富视觉表示以及LLM的世界知识和推理能力,VLM可用于广泛的应用程序,包括可访问性助手,UI导航,机器人技术和GAMING.VLM精度通常可以通过更高的输入图像解决,可以在精确的情况下提高精确折磨,> vlm的精度可以提高。

来源:Apple机器学习研究

视觉语言模型(VLMS)可与文本输入一起视觉理解。它们通常是通过将视觉令牌从验证的视觉编码传递到预处理的大型语言模型(LLM)通过投影层来构建的。 通过利用视觉编码器的丰富视觉表示以及LLM的世界知识和推理功能,VLM可以对广泛的应用程序有用,包括可访问性助手,UI导航,机器人和游戏。

VLM精度通常会随着较高的输入图像分辨率提高,从而在准确性和效率之间创造了权衡。对于许多生产用例,VLM既需要准确又有效,以满足实时应用程序的低延迟需求,并运行具有隐私性AI体验的设备。

在CVPR 2025接受的一篇论文中,Apple ML研究人员最近分享了一种解决这一挑战的新技术:FastVLM,这是一种新型的VLM,可显着通过简单的设计来大大提高准确的延期折衷。 FastVLM利用专为高分辨率图像而设计的混合体系结构的视觉编码器,可提供准确,快速且高效的视觉查询处理,使其适合在实时应用程序上为实时设备供电。推理代码,模型检查点和基于MLX的iOS/MACOS演示应用程序可在此处提供。

mlx 在这里

图像分辨率和准确的延迟权衡

通常,VLM精度通过更高的图像分辨率提高,尤其是对于需要详细理解的任务,例如文档分析,UI识别或回答有关图像的自然语言查询。例如,在下面的图1中,我们询问VLM有关图像中可见的路标。在左侧,该模型会收到低分辨率图像,无法正确响应。在右侧,VLM会收到高分辨率图像,并正确识别“不输入”的流量标志。

图1 图2

潜伏期故障

对于1.5B VLM(FP16)

图3 VIT-L/14 siglip-so400