LLM-as-a-Judge:它是什么、为什么有效以及如何使用它来评估 AI 模型

使用大型语言模型构建 AI 质量控制的分步指南《法学硕士作为法官:它是什么、为什么有效以及如何使用它来评估 AI 模型》首先出现在《走向数据科学》上。

来源:走向数据科学

关于使用人工智能来评估人工智能的想法,也称为“LLM-as-a-Judge”,我的反应是:

用AI来评估AI
“好吧,我们正式失去理智了。”

我们生活在一个连卫生纸都被标榜为“人工智能驱动”的世界。我认为这只是我们混乱且快速发展的人工智能领域中另一个由炒作驱动的趋势。

但当我研究了 LLM-as-a-Judge 的实际含义后,我意识到我错了。让我解释一下。

每个数据科学家和机器学习工程师都应该牢记一张图片,它涵盖了模型复杂性、训练集大小和预期性能水平的整个范围:

作者制作的图片

如果任务很简单,那么拥有较小的训练集通常不是问题。在某些极端情况下,您甚至可以使用简单的基于规则的方法来解决。即使任务变得更加复杂,只要拥有大量且多样化的训练集,您通常也可以获得高性能。

简单 复杂

当任务很复杂并且您无法访问全面的训练集时,真正的麻烦就开始了。到那时,就没有干净的秘诀了。您需要领域专家、手动数据收集和仔细的评估程序,在最糟糕的情况下,您可能需要花费数月甚至数年的时间才能构建可靠的标签。

...这是在大型语言模型(LLM)之前。

位于 大型语言模型 (LLM)。

法学硕士作为法官范式

法学硕士的承诺很简单:您可以通过一次 API 调用获得许多领域接近“博士级别”的专业知识。我们可以(而且可能应该)争论这些系统到底有多“智能”。越来越多的证据表明,法学硕士的行为更像是一个极其强大的模式匹配器和信息检索器,而不是一个真正的智能代理[你绝对应该关注这个]。

这个 您没有现成的数据集 法学硕士非常有用 大麻烦 LLM成为评估员 判断

这将有许多有益的下游应用:

不是