详细内容或原文请订阅后点击阅览
使用 Amazon Bedrock 和 LLM 网关实施弹性模式
在本文中,您将学习在 AWS 上构建弹性生成 AI 应用程序的五种实用模式,从原生 Amazon Bedrock 功能发展到使用 LLM 网关的多模型编排。这些模式解决了现实世界的挑战,例如意外流量激增期间的配额耗尽,通过推理的地理分布最大化可用性,并帮助防止多租户环境中的嘈杂邻居问题。
来源:亚马逊云科技 _机器学习随着生成式 AI 工作负载从实验大规模转向生产,实施大型语言模型 (LLM) 推理的弹性模式至关重要。随着 LLM 支持的应用程序现已投入生产,组织需要各种方法来保持 LLM 推理的高度可用性、响应能力和成本效益。现有的弹性最佳实践(例如静态稳定性以及实施退避和重试)仍然适用。然而,生成式 AI 引入了新的考虑因素,包括模型可用性、快速变化的配额、跨多个提供商的令牌限制以及与新发布的模型保持一致性。Amazon Bedrock 提供完全托管的基础模型,具有跨区域推理等内置弹性功能。
在设计生产推理时,通常有四个维度指导架构决策:可用性、响应时间、成本和吞吐量。可用性是指在模型、区域或提供商中断期间维持推理。响应时间涵盖了用户接收输出的速度,通常以第一个令牌的时间 (TTFT) 和最后一个令牌的时间 (TTLT) 来衡量。成本捕获每个令牌和每个请求的支出以及路由决策如何影响它。吞吐量反映了系统在负载下每秒可以承受多少并发请求和令牌。
这些维度是相互关联的。例如,跨区域路由可提高可用性和吞吐量,但可能会增加响应时间。本文中的模式主要关注可用性:通过故障转移、地理分布和配额隔离保持推理可操作。未来的帖子将深入探讨响应时间优化和成本感知路由。
这种爬行、行走、运行方法可让您根据应用程序的成熟度和要求逐步采用模式。随附的 GitHub 存储库提供了演示每种模式的代码示例。
推断弹性模式的增量方法
先决条件
Amazon Bedrock 跨区域推理
