前 5 个开源 LLM 评估平台

如果您正在构建 LLM 应用程序,这些开源工具可以帮助您轻松测试、跟踪和改进模型的性能。

来源:KDnuggets
作者图片

# 简介

#

每当您对大型语言模型 (LLM) 应用程序有新想法时,您必须正确评估它以了解其性能。如果不进行评估,就很难确定应用程序的运行情况。然而,大量的基准、指标和工具(通常都有自己的脚本)可能会使管理流程变得极其困难。幸运的是,开源开发人员和公司不断发布新框架来帮助应对这一挑战。

虽然有很多选择,但本文分享了我个人最喜欢的 LLM 评估平台。此外,最后还链接了一个包含 LLM 评估资源的“黄金存储库”。

LLM评估平台

# 1.DeepEval

DeepEval 是一个专门用于测试 LLM 输出的开源框架。它使用简单,工作方式与 Pytest 非常相似。您为提示和预期输出编写测试用例,然后 DeepEval 计算各种指标。它包括 30 多个内置指标(正确性、一致性、相关性、幻觉检查等),适用于单轮和多轮 LLM 任务。您还可以使用本地运行的法学硕士或自然语言处理 (NLP) 模型构建自定义指标。

深度评估

它还允许您生成合成数据集。它可与任何 LLM 应用程序(聊天机器人、检索增强生成 (RAG) 管道、代理等)配合使用,帮助您对模型行为进行基准测试和验证。另一个有用的功能是能够对 LLM 应用程序执行安全扫描以查找安全漏洞。它对于快速发现提示漂移或模型错误等问题非常有效。

# 2. Arize(AX 和 Phoenix)

阿里兹 Arize-Phoenix

# 3.Opik

奥皮克

# 4. 朗芙丝

朗芙丝

# 5. 语言模型评估工具

语言模型评估工具

# 总结(和黄金存储库)

法学硕士评估 坎瓦尔·梅林