VLM领域信息情报检索---XiaoMi-AI

2026年7月7日 00:00

LensVLM：用于文本压缩视觉表示的选择性上下文扩展

LensVLM: Selective Context Expansion for Compressed Visual Representation of Text

视觉语言模型 (VLM) 提供了将文本处理为渲染图像的令人兴奋的可能性，无需将文本标记为长标记序列。由于 VLM 图像编码器将固定大小的图像映射到固定数量的视觉标记，因此不同的渲染分辨率提供了细粒度的压缩旋钮。然而，随着压缩率的增加，准确性会迅速下降：字符缩小到低于视觉编码器的有效分辨率，使它们难以区分。为了解决这个问题，我们提出了 LensVLM，这是一个推理框架和训练后配方，使 VLM 能够扫描……

Apple机器学习研究

2026年7月2日 00:00

关于 RL 微调 VLM 的鲁棒性和思想链一致性

On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs

强化学习 (RL) 微调已成为增强推理密集型任务的大型语言模型 (LLM) 的关键技术，并推动其扩展到视觉语言模型 (VLM)。虽然经过 RL 调整的 VLM 改进了视觉推理基准，但它们仍然容易受到视觉基础薄弱、幻觉和过度依赖文本提示的影响。我们证明，简单的、受控的文本扰动——误导性的标题或不正确的思维链 (CoT) 痕迹——会导致鲁棒性和置信度大幅下降，并且当 CoT 一致性为……时，这些影响会更加明显。

viAct.ai

2026年6月19日 06:14

让 AI 代理关注：VLM 如何重新定义施工风险预防

Giving AI Agents Eyes: How VLMs Are Redefining Construction Risk Prevention

VLM 支持的人工智能代理如何在施工风险预防中读取完整的现场场景、发现未遂事件并自主采取行动。

VLM关键词检索结果

LensVLM：用于文本压缩视觉表示的选择性上下文扩展

关于 RL 微调 VLM 的鲁棒性和思想链一致性

让 AI 代理关注：VLM 如何重新定义施工风险预防