详细内容或原文请订阅后点击阅览
使用 Amazon Bedrock AgentCore Observability 调试生产代理
在本文中,您将了解如何使用内置的可观察性功能来调试生产代理故障。我们介绍常见的故障模式,展示如何通过跟踪和指标分析代理行为,并提供结构化工作流程来解决无限循环和工具调用失败等问题。这是由两部分组成的系列的第 1 部分。第 2 部分介绍性能优化和内存管理。
来源:亚马逊云科技 _机器学习生产人工智能 (AI) 代理可能会悄无声息地失败。它们可能会返回看似合理但不正确的答案,进入无限推理循环,或者选择错误的工具而不触发错误警报。这些失败使得调试生产代理行为变得困难,因为标准日志和指标无法捕获决策的制定方式。
Amazon Bedrock AgentCore Observability 通过让您跨三个层(指标、跟踪和结构化日志)了解代理执行情况来解决这些调试挑战。您可以遵循每个推理步骤,检查工具调用,并准确识别执行与预期的差异。这种可见性使您从检测发生故障转变为了解发生故障的原因。即使没有引发明确的错误,您也可以跟踪代理的推理方式、选择的工具以及工作流程在何处发生故障。在这篇文章中,您将了解如何使用内置的可观察性功能来调试生产代理故障。我们介绍常见的故障模式,展示如何通过跟踪和指标分析代理行为,并提供结构化工作流程来解决无限循环和工具调用失败等问题。这是由两部分组成的系列的第 1 部分。第 2 部分介绍性能优化和内存管理。
先决条件
在按照本文中的演练进行操作之前,请确保您拥有所需的访问权限和工具。
您需要一个已开启 Amazon Bedrock AgentCore 访问权限的 AWS 账户,熟悉 Amazon CloudWatch 控制面板和基本日志查询,并深入了解 AWS Identity and Access Management (IAM) 角色和策略。您还需要为您的账户启用 CloudWatch Transaction Search(请参阅启用可观察性部分)以及已部署的 Amazon Bedrock AgentCore 代理或拥有部署代理的权限。
了解代理故障模式
质量故障
可靠性问题
可靠性问题会阻止您的代理完成其工作流程。
