详细内容或原文请订阅后点击阅览
如何使用LLM进行强大的自动评估
llm-as-a-a-judgethe的初学者介绍如何使用LLM进行强大的自动评估,这首先出现在数据科学方面。
来源:走向数据科学讨论如何使用LLM作为法官进行自动评估。 LLM今天广泛用于各种应用。但是,LLMS通常低估的方面是其评估用例。使用LLM作为法官,您使用LLM来判断输出的质量,无论是给出1到10分之间的分数,比较两个输出,还是提供通过/失败的反馈。本文的目的是提供有关如何利用LLM作为您自己的应用程序的法官的见解,以使开发更有效。
您还可以阅读我有关使用ARC AGI 3进行基准LLM的文章,然后查看我的网站,其中包含我所有的信息和文章。
我关于基准LLMS的文章 带有ARC AGI 3 我的网站,其中包含我所有的信息和文章。目录
动机
我写这篇文章的动机是我每天都在不同的LLM应用程序上工作。我越来越多地了解使用LLM作为法官,我开始阅读有关该主题的阅读。我相信,利用LLM对机器学习系统进行自动评估是LLM的一个超级强大方面,通常被低估了。
使用LLM作为法官可以为您节省大量的时间,因为它可以自动化一部分或整个评估过程。评估对于机器学习系统至关重要,以确保它们按预期执行。但是,评估也很耗时,因此您希望尽可能多地自动化它们。
法官的一个有力的llm的用例中有一个在提问系统中。您可以为两个提示的两个不同版本收集一系列输入输出示例。然后,您可以要求LLM法官对输出是否相等(或后一个提示版本输出更好)做出回应,因此确保应用程序的更改不会对性能产生负面影响。例如,这可以使用新提示的预部署。