利用 TTFT 和估计配额消耗的新 CloudWatch 指标提高 Amazon Bedrock 上推理工作负载的运营可见性 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

利用 TTFT 和估计配额消耗的新 CloudWatch 指标提高 Amazon Bedrock 上推理工作负载的运营可见性

2026年3月12日 21:20 33 Comments

今天，我们宣布针对 Amazon Bedrock 推出两个新的 Amazon CloudWatch 指标：TimeToFirstToken 和 EstimatedTPMQuotaUsage。在这篇文章中，我们将介绍它们的工作原理以及如何设置警报、建立基线以及使用它们主动管理容量。

来源:亚马逊云科技 _机器学习

随着组织在 Amazon Bedrock 上扩展其生成式 AI 工作负载，推理性能和资源消耗的操作可见性变得至关重要。运行延迟敏感应用程序的团队必须了解模型开始生成响应的速度。管理高吞吐量工作负载的团队必须了解他们的请求如何消耗配额，以便避免意外的限制。到目前为止，获得这种可见性需要自定义客户端检测或在问题发生后进行反应式故障排除。

今天，我们宣布针对 Amazon Bedrock 推出两个新的 Amazon CloudWatch 指标：TimeToFirstToken 和 EstimatedTPMQuotaUsage。这些指标使您可以在服务器端了解流延迟和配额消耗。这些指标会针对每个成功的推理请求自动发出，无需额外成本，无需更改 API 或选择加入。它们现在可在 AWS/Bedrock CloudWatch 命名空间中使用。

在这篇文章中，我们将介绍以下内容：

为什么了解首次令牌延迟和配额消耗对于生产 AI 工作负载很重要

新的 TimeToFirstToken 和 EstimatedTPMQuotaUsage 指标的工作原理

如何开始使用这些指标来设置警报、建立基线并主动管理容量。

生产 AI 推理工作负载的可观察性需求

在流推理应用程序中，例如聊天机器人、编码助手或实时内容生成，模型返回其第一个令牌所需的时间直接影响感知的响应能力。即使总体吞吐量保持在可接受的范围内，第一个令牌的延迟也会直接影响应用程序的感知响应能力。但是，测量此服务器端指标之前需要您检测应用程序代码以捕获 API 调用周围的时间戳。这增加了复杂性，并可能导致测量不准确，无法反映实际的服务端行为。

了解新引入的指标

指标故障排除服务器实际的 Bedrock 吞吐量接受的引入的了解不准确反应式配额检测可观察性负载的延迟推理为什么所需的应用程序生成无需工作负载周围的令牌消耗的复杂性响应的可见性可接受的需要 AI Amazon 机器人意外的工作原理