详细内容或原文请订阅后点击阅览
通过 Amazon Bedrock AgentCore 中的数据集管理构建可与代理一起成长的测试套件
当您将快速移动的在线信号与稳定的离线基线相结合时,代理评估最为强大。要了解您的代理是否真正随着时间的推移而改进,您需要一个固定的基准以及不断变化的现实世界流量。将评估基线的测试用例作为 Amazon Bedrock AgentCore 中的数据集进行管理,带来了版本化测试装置的规范 [...]
来源:亚马逊云科技 _机器学习当您将快速移动的在线信号与稳定的离线基线相结合时,代理评估最为强大。要了解您的代理是否真正随着时间的推移而改进,您需要一个固定的基准以及不断变化的现实世界流量。
将评估基线的测试用例作为 Amazon Bedrock AgentCore 中的数据集进行管理,为代理评估带来了版本化测试装置的规则。您可以使用输入、预期输出、断言和工具序列来编写场景,然后将它们发布为不可变的编号版本,这些版本不会在运行时发生变化。您可以在可变草稿上自由迭代,直到准备好锁定检查点。当生产中出现问题时,该故障就会成为永久的测试用例,未来的每个变更都会根据该测试用例进行评估。
在这篇文章中,我们将与金融市场情报代理一起完成整个工作流程。我们从生产跟踪中捕获故障,构建版本化数据集,运行评估,修复代理,并根据相同的锁定输入确认改进。
为什么数据集很重要
代理在设计上是不确定的。相同的输入可以在运行中产生不同的输出,这使得单个评估结果几乎毫无意义。您无法判断分数的变化是因为代理发生变化还是因为模型采样不同。对稳定输入进行一致的测量是了解变革是否真正有帮助的唯一方法。
版本化数据集为您提供了两者。它们保持输入不变,因此运行中的分数具有可比性,并且它们携带了使这些分数有意义的基本事实。这在代理评估实际发生的两个地方最为重要。
两种类型的测试场景
Amazon Bedrock AgentCore 中的数据集支持两种架构类型,以不同的方式为这两个循环提供服务。
AgentCore 中的数据集如何工作
代理商:市场趋势助理
三种故障模式经常出现,足以保证永久测试用例:
实施
本次实践演练大约需要 30 分钟。
