介绍代理质量循环：AgentCore Optimization 现已提供预览版 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

介绍代理质量循环：AgentCore Optimization 现已提供预览版

2026年5月4日 17:13 33 Comments

根据生产跟踪生成建议，通过批量评估和 A/B 测试对其进行验证，然后放心发货。在发布时表现良好的人工智能代理不会一直保持这种状态。随着模型的发展，用户行为发生变化，提示会在从未设计过的新环境中被重用。代理质量悄然下降。在大多数团队中，改进 [...]

来源:亚马逊云科技 _机器学习

根据生产跟踪生成建议，通过批量评估和 A/B 测试对其进行验证，然后放心发货。

在发布时表现良好的人工智能代理不会一直保持这种状态。随着模型的发展，用户行为发生变化，提示会在从未设计过的新环境中被重用。代理质量悄然下降。在大多数团队中，改进过程看起来仍然相同：没有自动反馈循环，当用户抱怨时，开发人员会仔细阅读跟踪，形成假设，重写提示，测试一些案例，然后发布修复程序。然后循环重复，通常会为不同的用户引入新问题。截至今天，Amazon Bedrock AgentCore 为您提供了手动调试或构建自定义实施的部分：检查评估分数以检测质量下降，深入研究跟踪以确定根本原因并使用改进的配置更新代理。开发人员是依赖直觉而不是系统数据支持证据的性能引擎。专门的科学团队和大型集中基准测试会有所帮助，但对于大多数产品团队来说，它们既不是实用的，也不是及时的解决方案。即使您拥有该机器，它也往往以每周或每月为周期移动，而代理每天都在生产中漂移。

AgentCore 是大规模构建、连接和优化代理的平台，并在基础设施层强制执行安全性。成千上万的开发人员已经使用 AgentCore 来构建能够跨复杂工作流程进行推理、规划和操作的代理。今天，我们宣布 AgentCore 中的新功能，可完成代理性能和质量的观察、评估、改进循环：建议和两种验证它们的方法。

循环在实践中如何运行

以下是模型升级场景中循环的运行方式。任何更改的模式都是相同的：提示重构、工具集更新、框架升级。

我们要去哪里

查看实际效果

开始使用

关于作者

阿曼迪普·库拉纳

尼基尔·坎多伊

良好的强制执行相同的人工智能系统数据跟踪不同的质量代理的用户基础设施循环的及时的检测质量提示团队构建运行方式质量的测试操作的专门的开发人员改进的代理实用的评估模型的 AgentCore 使用改进大规模安全性根据循环