语义上关键词检索结果

分层 LLM 架构的异步验证语义缓存

Asynchronous Verified Semantic Caching for Tiered LLM Architectures

大型语言模型 (LLM) 现在位于搜索、辅助和代理工作流程的关键路径中,使得语义缓存对于降低推理成本和延迟至关重要。生产部署通常使用分层的静态-动态设计:从日志中挖掘的经过策划、离线审查的响应的静态缓存,由在线填充的动态缓存提供支持。在实践中,这两层通常都由单个嵌入相似性阈值控制,这会导致一个艰难的权衡:保守的阈值会错过安全重用的机会,而激进的阈值则可能会导致语义上不正确的服务......

语音推测解码的原则性粗粒度接受

Principled Coarse-Grained Acceptance for Speculative Decoding in Speech

推测性解码通过让快速草稿模型提出由更大的目标模型验证的标记来加速自回归语音生成。然而,对于生成声学标记的语音法学硕士来说,精确的标记匹配过于严格:许多离散标记在声学或语义上是可互换的,从而降低了接受率并限制了加速。我们引入了原则性粗粒度(PCG),它在从目标模型的嵌入空间派生的声学相似性组(ASG)级别验证建议。通过将每个标记的概率质量分布在...