细粒度领域信息情报检索---XiaoMi-AI

2026年7月20日 00:00

LVSum：时间戳感知长视频摘要的基准

LVSum: A Benchmark for Timestamp-Aware Long Video Summarization

长视频摘要对多模态大语言模型 (MLLM) 提出了重大挑战，特别是在长时间保持时间保真度以及生成语义和时间上均基于的摘要方面。我们引入了 LVSum，这是一个人工注释的基准，用于评估具有细粒度时间对齐的长格式视频摘要。 LVSum 包含 72 个不同的视频，跨越 13 个领域，平均持续时间为 16 分钟，每个视频都注释有最多 10 个包含时间参考的人工生成的摘要。 We conduct a comprehensive evaluation…

Apple机器学习研究

2026年7月20日 00:00

长度价值模型：令牌级长度建模的可扩展价值预训练

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Token作为现代自回归模型的基本计算单位，生成长度直接影响推理成本和推理性能。尽管它很重要，但现有方法缺乏细粒度的长度建模，主要在粗粒度的序列级别上运行。在本文中，我们介绍了长度值模型（LenVM），这是一个令牌级框架，用于对每个解码步骤的剩余生成长度进行建模。通过将长度建模表述为价值估计问题，并为每个生成的代币分配恒定的负奖励，LenVM…

Apple机器学习研究

2026年7月7日 00:00

LensVLM：用于文本压缩视觉表示的选择性上下文扩展

LensVLM: Selective Context Expansion for Compressed Visual Representation of Text

视觉语言模型 (VLM) 提供了将文本处理为渲染图像的令人兴奋的可能性，无需将文本标记为长标记序列。由于 VLM 图像编码器将固定大小的图像映射到固定数量的视觉标记，因此不同的渲染分辨率提供了细粒度的压缩旋钮。然而，随着压缩率的增加，准确性会迅速下降：字符缩小到低于视觉编码器的有效分辨率，使它们难以区分。为了解决这个问题，我们提出了 LensVLM，这是一个推理框架和训练后配方，使 VLM 能够扫描……

细粒度关键词检索结果

LVSum：时间戳感知长视频摘要的基准

长度价值模型：令牌级长度建模的可扩展价值预训练

LensVLM：用于文本压缩视觉表示的选择性上下文扩展