前 5 个开源 LLM 评估平台 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

前 5 个开源 LLM 评估平台

2025年12月8日 13:40 33 Comments

如果您正在构建 LLM 应用程序，这些开源工具可以帮助您轻松测试、跟踪和改进模型的性能。

来源:KDnuggets

作者图片

# 简介

每当您对大型语言模型 (LLM) 应用程序有新想法时，您必须正确评估它以了解其性能。如果不进行评估，就很难确定应用程序的运行情况。然而，大量的基准、指标和工具（通常都有自己的脚本）可能会使管理流程变得极其困难。幸运的是，开源开发人员和公司不断发布新框架来帮助应对这一挑战。

虽然有很多选择，但本文分享了我个人最喜欢的 LLM 评估平台。此外，最后还链接了一个包含 LLM 评估资源的“黄金存储库”。

LLM评估平台

# 1.DeepEval

DeepEval 是一个专门用于测试 LLM 输出的开源框架。它使用简单，工作方式与 Pytest 非常相似。您为提示和预期输出编写测试用例，然后 DeepEval 计算各种指标。它包括 30 多个内置指标（正确性、一致性、相关性、幻觉检查等），适用于单轮和多轮 LLM 任务。您还可以使用本地运行的法学硕士或自然语言处理 (NLP) 模型构建自定义指标。

深度评估

它还允许您生成合成数据集。它可与任何 LLM 应用程序（聊天机器人、检索增强生成 (RAG) 管道、代理等）配合使用，帮助您对模型行为进行基准测试和验证。另一个有用的功能是能够对 LLM 应用程序执行安全扫描以查找安全漏洞。它对于快速发现提示漂移或模型错误等问题非常有效。

# 2. Arize（AX 和 Phoenix）

阿里兹 Arize-Phoenix

# 3.Opik

奥皮克

# 4. 朗芙丝

朗芙丝

# 5. 语言模型评估工具

语言模型评估工具

# 总结（和黄金存储库）

法学硕士评估 坎瓦尔·梅林

正确性自己的提示工作方式机器人 LLM 开源 Phoenix Arize 帮助使用开发人员输出的大量的进行如果不法学硕士测试用例数据集工具运行的语言模型应用程序有用的一致性指标相关性评估