详细内容或原文请订阅后点击阅览
评估LLM的推理,或者是通过用于机器学习教学的课程
这就像对论文的分级,但是您的学生是评估推理的LLM的帖子,或者是从机器学习教学的经验教训,首先出现在数据科学方面。
来源:走向数据科学最近有机会从事评估LLM推理绩效的任务,我认为这是一个很好的话题。思考这个问题有助于我们指出试图将LLMS变成可靠,值得信赖的工具的重大挑战,即使是小型或高度专业的任务。
推理我们要做的事情
最简单的形式,评估LLM的任务实际上是机器学习领域中的从业者非常熟悉的 - 找出定义成功响应的原因,并创建了一种定量测量的方法。但是,当模型产生数字或概率时,与模型生成文本时,此任务的变化很大。
机器学习一方面,通过分类或回归任务,对输出的解释变得更加容易。对于分类,您的模型正在产生结果的概率,并且您确定该概率的最佳阈值来定义“是”和“否”之间的差异。然后,您可以测量精度,精度和回忆之类的东西,这些内容非常确定且定义明确。对于回归,目标结果是一个数字,因此您可以使用类似建立的指标(例如RMSE或MSE)量化模型的预测数字和目标之间的差异。
但是,如果您提供提示,并且LLM返回文本段落,那么您如何定义返回的段落是否构成成功?
在经典的机器学习中,基本上任何对输出发生变化的事物都将使结果更接近或更远。但是,LLM可以对结果对人类用户的可接受性进行中性。这对评估意味着什么?这意味着我们必须创建自己的标准和方法来定义性能质量。