AI 代理的生产级可观测性：最少代码、配置优先的方法 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

AI 代理的生产级可观测性：最少代码、配置优先的方法

2025年12月17日 13:30 33 Comments

LLM 作为法官、回归测试和多代理 LLM 系统的端到端可追溯性人工智能代理的后期生产级可观察性：最少代码、配置优先的方法首先出现在《走向数据科学》上。

来源:走向数据科学

变得更加复杂，传统的日志记录和监控能力不足。团队真正需要的是可观察性：能够跟踪代理决策、自动评估响应质量以及检测随时间变化的漂移，而无需编写和维护大量自定义评估和遥测代码。

因此，团队需要采用正确的可观察性平台，同时专注于构建和改进代理编排的核心任务。并将他们的应用程序集成到可观察性平台，以最小的功能代码开销。在本文中，我将演示如何设置开源 AI 可观测平台，以使用最少代码方法执行以下操作：

LLM-as-a-Judge：配置预构建的评估器，对回答的正确性、相关性、幻觉等进行评分。通过详细的日志和分析显示运行分数。

大规模测试：设置数据集来存储回归测试用例，以根据预期的真实响应测量准确性。主动检测 LLM 和代理漂移。

MELT 数据：通过详细跟踪来跟踪指标（延迟、令牌使用、模型漂移）、事件（API 调用、LLM 调用、工具使用）、日志（用户交互、工具执行、代理决策）——所有这些都无需详细的遥测和检测代码。

我们将使用 Langfuse 来实现可观察性。它是开源的，与框架无关，可以与流行的编排框架和 LLM 提供商一起使用。

对于本演示，我附上了客户服务应用程序的 LangGraph 代码。该应用程序接受来自用户的票证，使用分类代理将其分类为技术、计费或两者，然后将其路由到技术支持代理、计费支持代理或两者。然后，终结器代理将两个代理的响应合成为连贯的、更易读的格式。流程图如下：

响应 LLM 流行的时间变化代理需要的传统的大规模技术支持评估器变化的正确的应用程序相关性准确性正确性漂移跟踪代码日志客户服务可观测性流程图根据代理的观测详细的易读的使用可观察性连贯的平台预期的回归测试测试用例数据集最小的设置回答的质量评估