如何创建与人类标签保持一致的LLM法官

动手构建和验证LLM评估人员的指南《如何创建与人类标签保持一致的LLM法官》首先出现在数据科学方面。

来源:走向数据科学

使用LLM的应用程序,您可能遇到了这一挑战:如何评估AI系统输出的质量?

说,您想检查响应是否具有正确的音调。或在用户问题的背景下,它是安全的,品牌,有用的还是有意义的。这些都是不容易衡量的定性信号的示例。

问题是这些品质通常是主观的。没有一个“正确”答案。尽管人类擅长判断他们,但人类不会扩展。如果您要测试或运输LLM驱动功能,则最终将需要一种自动化评估的方法。

llm-as-a-gudge是这样做的一种流行方法:您提示LLM评估另一个LLM的输出。它是灵活的,可以快速的原型,并且易于插入工作流程。

但是有一个收获:您的LLM法官也不确定。实际上,这就像运行一个小型机器学习项目一样,目标是复制专家标签和决策。

在某种程度上,您正在构建的是自动标签系统。

这意味着您还必须评估评估者,以检查您的LLM法官是否与人类判断保持一致。

在这篇博客文章中,我们将展示如何创建和调整与人类标签保持一致的LLM评估器,而不仅仅是如何提示它,还可以如何测试和信任它可以按预期工作。

我们将结束一个实践示例:建立法官,该法官得分LLM产生的代码评论评论的质量。

免责声明:我显然是我们将在此示例中使用的开源工具之一。我们将使用该工具的免费和开源功能。我们还将提及开放AI和人类模型作为LLM评估者的使用。这些是商业模型,在API调用中需要花费几美分来复制该示例。 (您还可以将它们替换为开源型号)。

什么是LLM评估器?

llm-as-a-gudge
llm-as-a-a-gudge背后的想法。作者的图像

让我们看一下它的工作方式!

在这里 18