使用 Amazon Bedrock AgentCore Observability 调试生产代理

在本文中,您将了解如何使用内置的可观察性功能来调试生产代理故障。我们介绍常见的故障模式,展示如何通过跟踪和指标分析代理行为,并提供结构化工作流程来解决无限循环和工具调用失败等问题。这是由两部分组成的系列的第 1 部分。第 2 部分介绍性能优化和内存管理。

来源:亚马逊云科技 _机器学习

生产人工智能 (AI) 代理可能会悄无声息地失败。它们可能会返回看似合理但不正确的答案,进入无限推理循环,或者选择错误的工具而不触发错误警报。这些失败使得调试生产代理行为变得困难,因为标准日志和指标无法捕获决策的制定方式。

Amazon Bedrock AgentCore Observability 通过让您跨三个层(指标、跟踪和结构化日志)了解代理执行情况来解决这些调试挑战。您可以遵循每个推理步骤,检查工具调用,并准确识别执行与预期的差异。这种可见性使您从检测发生故障转变为了解发生故障的原因。即使没有引发明确的错误,您也可以跟踪代理的推理方式、选择的工具以及工作流程在何处发生故障。在这篇文章中,您将了解如何使用内置的可观察性功能来调试生产代理故障。我们介绍常见的故障模式,展示如何通过跟踪和指标分析代理行为,并提供结构化工作流程来解决无限循环和工具调用失败等问题。这是由两部分组成的系列的第 1 部分。第 2 部分介绍性能优化和内存管理。

先决条件

在按照本文中的演练进行操作之前,请确保您拥有所需的访问权限和工具。

您需要一个已开启 Amazon Bedrock AgentCore 访问权限的 AWS 账户,熟悉 Amazon CloudWatch 控制面板和基本日志查询,并深入了解 AWS Identity and Access Management (IAM) 角色和策略。您还需要为您的账户启用 CloudWatch Transaction Search(请参阅启用可观察性部分)以及已部署的 Amazon Bedrock AgentCore 代理或拥有部署代理的权限。

了解代理故障模式

质量故障

可靠性问题

可靠性问题会阻止您的代理完成其工作流程。

结论