详细内容或原文请订阅后点击阅览
使用 NeMo Agent Toolkit 衡量重要事项
可观察性、评估和模型比较的实用指南使用 NeMo Agent Toolkit 衡量重要内容一文首先出现在 Towards Data Science 上。
来源:走向数据科学在分析领域工作了十年,我坚信可观察性和评估对于任何在生产中运行的 LLM 应用程序都是至关重要的。监控和指标不仅仅是锦上添花。他们确保您的产品按预期运行,并且每次新更新实际上都会让您朝着正确的方向前进。
在本文中,我想分享我对 NeMo Agent Toolkit (NAT) 的可观察性和评估功能的体验。如果您还没有阅读过我之前关于 NAT 的文章,请快速回顾一下:NAT 是 Nvidia 用于构建生产就绪的 LLM 应用程序的框架。将其视为连接法学硕士、工具和工作流程的粘合剂,同时还提供部署和可观察性选项。
使用 NAT,我们构建了一个幸福代理,能够回答有关世界幸福报告数据的细微问题并根据真实指标执行计算。我们的重点是构建代理流、将其他框架的代理集成为工具(在我们的示例中是基于 LangGraph 的计算器代理),并将应用程序部署为 REST API 和用户友好的界面。
在本文中,我将深入探讨我最喜欢的主题:可观察性和评估。毕竟,俗话说,不衡量就无法改进。所以,事不宜迟,让我们开始吧。
可观察性
让我们从可观察性开始 – 跟踪应用程序内部发生的情况的能力,包括所有中间步骤、使用的工具、计时和令牌使用情况。 NeMo Agent Toolkit 与各种可观测工具集成,例如 Phoenix、W&B Weave 和 Catalyst。您可以随时在文档中查看最新的受支持框架列表。
在本文中,我们将尝试 Phoenix。Phoenix 是一个用于跟踪和评估 LLM 的开源平台。在我们开始使用它之前,我们首先需要安装该插件。
uv pip install arize-phoenix
uv pip install "nvidia-nat[phoenix]"
接下来,我们可以启动 Phoenix 服务器。
