介绍代理质量循环:AgentCore Optimization 现已提供预览版

根据生产跟踪生成建议,通过批量评估和 A/B 测试对其进行验证,然后放心发货。在发布时表现良好的人工智能代理不会一直保持这种状态。随着模型的发展,用户行为发生变化,提示会在从未设计过的新环境中被重用。代理质量悄然下降。在大多数团队中,改进 [...]

来源:亚马逊云科技 _机器学习

根据生产跟踪生成建议,通过批量评估和 A/B 测试对其进行验证,然后放心发货。

在发布时表现良好的人工智能代理不会一直保持这种状态。随着模型的发展,用户行为发生变化,提示会在从未设计过的新环境中被重用。代理质量悄然下降。在大多数团队中,改进过程看起来仍然相同:没有自动反馈循环,当用户抱怨时,开发人员会仔细阅读跟踪,形成假设,重写提示,测试一些案例,然后发布修复程序。然后循环重复,通常会为不同的用户引入新问题。截至今天,Amazon Bedrock AgentCore 为您提供了手动调试或构建自定义实施的部分:检查评估分数以检测质量下降,深入研究跟踪以确定根本原因并使用改进的配置更新代理。开发人员是依赖直觉而不是系统数据支持证据的性能引擎。专门的科学团队和大型集中基准测试会有所帮助,但对于大多数产品团队来说,它们既不是实用的,也不是及时的解决方案。即使您拥有该机器,它也往往以每周或每月为周期移动,而代理每天都在生产中漂移。

AgentCore 是大规模构建、连接和优化代理的平台,并在基础设施层强制执行安全性。成千上万的开发人员已经使用 AgentCore 来构建能够跨复杂工作流程进行推理、规划和操作的代理。今天,我们宣布 AgentCore 中的新功能,可完成代理性能和质量的观察、评估、改进循环:建议和两种验证它们的方法。

循环在实践中如何运行

以下是模型升级场景中循环的运行方式。任何更改的模式都是相同的:提示重构、工具集更新、框架升级。

我们要去哪里

查看实际效果

开始使用

关于作者

阿曼迪普·库拉纳

尼基尔·坎多伊