详细内容或原文请订阅后点击阅览
fastvlm:视觉语言模型的有效愿景
缩放输入图像分辨率对于增强视觉语言模型(VLM)的性能至关重要,尤其是在文本丰富的图像理解任务中。但是,由于大量令牌和高度编码延迟,流行的视觉编码器(例如VIT)在高分辨率下效率低下。在不同的操作分辨率下,可以沿两个轴优化VLM的视觉编码器:减少编码延迟并最小化传递给LLM的视觉令牌的数量,从而降低整体延迟。基于对互动的综合效率分析…
来源:Apple机器学习研究缩放输入图像分辨率对于增强视觉语言模型(VLM)的性能至关重要,尤其是在文本丰富的图像理解任务中。但是,由于大量令牌和高度编码延迟,流行的视觉编码器(例如VIT)在高分辨率下效率低下。在不同的操作分辨率下,可以沿两个轴优化VLM的视觉编码器:减少编码延迟并最小化传递给LLM的视觉令牌的数量,从而降低整体延迟。基于对图像分辨率,视觉延迟,代币计数和LLM大小之间相互作用的全面效率分析,我们引入了FastVLM(该模型)在分辨率,延迟和准确性之间实现了优化的权衡。 FastVLM结合了FastVithD,这是一种新型混合视觉编码器,旨在输出更少的令牌,并显着减少高分辨率图像的编码时间。与以前的方法不同,FASTVLM仅通过缩放输入图像来实现视觉令牌计数和图像分辨率之间的最佳平衡,从而消除了对其他令牌修剪的需求并简化了模型设计。在LLAVA-1.5设置中,FASTVLM在与先前的工作相比保持VLM基准测试的相似性能相比,在维持VLM基准测试的同时,提高了3.2倍(TTFT)。与最高分辨率(1152x1152)的LLAVA-SONEVISION相比,FASTVLM使用相同的0.5B LLM在诸如Seedbench和MMMU(例如Seedbench和MMMU)的关键基准上实现了可比性的性能,但TTFT的速度更快为85倍,并且具有3.4倍的视觉编码器的速度更快。