关键路径关键词检索结果

分层 LLM 架构的异步验证语义缓存

Asynchronous Verified Semantic Caching for Tiered LLM Architectures

大型语言模型 (LLM) 现在位于搜索、辅助和代理工作流程的关键路径中,使得语义缓存对于降低推理成本和延迟至关重要。生产部署通常使用分层的静态-动态设计:从日志中挖掘的经过策划、离线审查的响应的静态缓存,由在线填充的动态缓存提供支持。在实践中,这两层通常都由单个嵌入相似性阈值控制,这会导致一个艰难的权衡:保守的阈值会错过安全重用的机会,而激进的阈值则可能会导致语义上不正确的服务......