AI 代理的生产级可观测性:最少代码、配置优先的方法

LLM 作为法官、回归测试和多代理 LLM 系统的端到端可追溯性人工智能代理的后期生产级可观察性:最少代码、配置优先的方法首先出现在《走向数据科学》上。

来源:走向数据科学

变得更加复杂,传统的日志记录和监控能力不足。团队真正需要的是可观察性:能够跟踪代理决策、自动评估响应质量以及检测随时间变化的漂移,而无需编写和维护大量自定义评估和遥测代码。

因此,团队需要采用正确的可观察性平台,同时专注于构建和改进代理编排的核心任务。并将他们的应用程序集成到可观察性平台,以最小的功能代码开销。在本文中,我将演示如何设置开源 AI 可观测平台,以使用最少代码方法执行以下操作:

  • LLM-as-a-Judge:配置预构建的评估器,对回答的正确性、相关性、幻觉等进行评分。通过详细的日志和分析显示运行分数。
  • 大规模测试:设置数据集来存储回归测试用例,以根据预期的真实响应测量准确性。主动检测 LLM 和代理漂移。
  • MELT 数据:通过详细跟踪来跟踪指标(延迟、令牌使用、模型漂移)、事件(API 调用、LLM 调用、工具使用)、日志(用户交互、工具执行、代理决策)——所有这些都无需详细的遥测和检测代码。
  • 我们将使用 Langfuse 来实现可观察性。它是开源的,与框架无关,可以与流行的编排框架和 LLM 提供商一起使用。

    多代理应用程序

    对于本演示,我附上了客户服务应用程序的 LangGraph 代码。该应用程序接受来自用户的票证,使用分类代理将其分类为技术、计费或两者,然后将其路由到技术支持代理、计费支持代理或两者。然后,终结器代理将两个代理的响应合成为连贯的、更易读的格式。流程图如下:

    可观察性配置

    法学硕士法官设置

    数据集设置

    可观测性结果