观察和评估使用链剂SDK和ARIZE AX

在这篇文章中,我们介绍了如何通过链代理启动和评估AI代理任务,从而有助于验证代理工作流的正确性和可信度。

来源:亚马逊云科技 _机器学习
这篇文章与来自Arize AI.Agentic AI应用程序的Rich Young共同撰写,其基于代理工作流程与传统工作量不同,以一种重要的方式不同:它们是非确定性的。也就是说,它们可以以相同的输入产生不同的结果。这是因为在生成每个令牌时,它们基于使用概率的大语言模型(LLM)。这种固有的不可预测性可以导致AI应用程序设计人员提出与操作校正计划,代理的最佳路径以及具有正确参数的正确工具集有关的问题。想要部署此类代理工作负载的组织需要一个可观察性系统,该系统可以确保其产生的结果正确并且可以信任。许多组织低估的挑战。根据行业研究和现实世界的部署,团队面临几个关键障碍:不可预测的行为,在测试方面表现良好的代理可能会随着生产的意外投入而失败,例如新语言变化或特定领域的行话,或者特定领域的行话会导致无关紧要或误解的响应。以看起来正确但误导决策的方式,非确定性的途径 - 代理可能会选择效率低下或不正确的决策路径,例如采取10个步骤仅需进行5个问题,该查询应采用5个,导致用户体验差,导致了较差的用户集成度。