大型模型推理容器 – 最新功能和性能增强

AWS 最近发布了大型模型推理 (LMI) 容器的重大更新,为在 AWS 上托管 LLM 的客户提供全面的性能改进、扩展的模型支持和简化的部署功能。这些版本的重点是降低操作复杂性,同时在流行的模型架构中提供可衡量的性能提升。

来源:亚马逊云科技 _机器学习

现代大型语言模型 (LLM) 部署面临着由令牌数量增长驱动的不断升级的成本和性能挑战。令牌计数与字数、图像大小和其他输入因素直接相关,决定了计算要求和成本。较长的上下文意味着每个推理请求的费用较高。随着前沿模型现在支持多达 1000 万个令牌,以满足检索增强生成 (RAG) 系统和需要大量代码库和文档的编码代理不断增长的上下文需求,这一挑战变得更加严峻。然而,行业研究表明,推理工作负载中的令牌计数的很大一部分是重复的,相同的文档和文本跨度出现在众多提示中。这些数据“热点”代表着机遇。通过缓存经常重用的内容,组织可以降低长上下文推理工作负载的成本并提高性能。

AWS 最近发布了大型模型推理 (LMI) 容器的重大更新,为在 AWS 上托管 LLM 的客户提供全面的性能改进、扩展的模型支持和简化的部署功能。这些版本的重点是降低操作复杂性,同时在流行的模型架构中提供可衡量的性能提升。

LMCache 支持:改变长上下文性能

LMI 最新版本引入的最重要功能之一是全面的 LMCache 支持,它从根本上改变了组织处理长上下文推理工作负载的方式。 LMCache 是一个开源 KV 缓存解决方案,它提取和存储由现代 LLM 引擎生成的 KV 缓存,跨引擎和查询共享这些缓存,以帮助提高推理性能。

LMCache 性能基准

如何使用 LMCache

自动配置 为了简化部署,客户可以类似地启用自动 LMCache 配置: