粒度关键词检索结果

语音推测解码的原则性粗粒度接受

Principled Coarse-Grained Acceptance for Speculative Decoding in Speech

推测性解码通过让快速草稿模型提出由更大的目标模型验证的标记来加速自回归语音生成。然而,对于生成声学标记的语音法学硕士来说,精确的标记匹配过于严格:许多离散标记在声学或语义上是可互换的,从而降低了接受率并限制了加速。我们引入了原则性粗粒度(PCG),它在从目标模型的嵌入空间派生的声学相似性组(ASG)级别验证建议。通过将每个标记的概率质量分布在...

IEEE Transactions on Neural Networks and Learning Systems,第 37 卷,第 1 期,2026 年 1 月

IEEE Transactions on Neural Networks and Learning Systems, Volume 37, Issue 1, January 2026

1) 隐私保护视频异常检测:调查作者:Yang Liu、Siao Liu、朱晓光、Hao Yang、Jielin Li、JuncenGuo、Liangyu Teng、Dingkang Yang、Yan Wang、Jing LiuPages:2 - 212) SSPPI:从序列和结构角度预测跨模态增强的蛋白质相互作用作者:Xiangpeng Bi, Wenjian Ma、Huasen Jiang、Weigang Lu、Zhiqiang Wei、Shugang 张页数:22 - 363) 整合临床知识图谱和基于梯度的神经系统,通过七点检查表增强黑色素瘤诊断作者:Yuheng Wang、Tianze

NarrativeTrack:评估框架之外的视频语言模型

NarrativeTrack: Evaluating Video Language Models Beyond the Frame

多模态大语言模型 (MLLM) 在视觉语言推理方面取得了令人瞩目的进展,但它们理解视频中暂时展开的叙述的能力仍未得到充分探索。真正的叙事理解需要以谁在做什么、何时何地为基础,在动态视觉和时间上下文中保持连贯的实体表示。我们引入了 NarrativeTrack,这是第一个通过细粒度的以实体为中心的推理来评估 MLLM 中叙事理解的基准。与仅限于短剪辑或粗略场景级语义的现有基准不同......