详细内容或原文请订阅后点击阅览
代理AI:评估
指标跟踪抹布和代理的指标,以及帮助邮政代理AI的框架:在评估方面,首先出现在数据科学方面。
来源:走向数据科学主要是
这不是最激动人心的话题,但是越来越多的公司正在关注。因此,值得深入研究哪些指标可以实际衡量该性能。
,随着您推动更改时,可以进行适当的浮力,以确保事情不会出现干草。
因此,对于本文,我对多转聊,抹布和代理应用程序的常见指标进行了一些研究。
我还对Deepeval,Ragas和Openai的Evals库等框架进行了快速评论,因此您知道何时选择什么。
本文分为两分。如果您是新手,第1部分会讨论一些传统指标,例如Bleu和Rouge,涉及LLM基准测试,并介绍了使用LLM作为Evals法官的想法。
如果这不是您新的,则可以跳过此。第2部分挖掘对不同类型的LLM应用程序的评估。
我们在
如果您精通我们如何评估NLP任务以及公共基准的工作方式,则可以跳过第一部分。
如果不是,很高兴知道较早的指标(例如准确性和BLEU最初使用的目的)以及它们的工作方式,同时了解我们如何测试MMLU等公共基准。
评估NLP任务
当我们评估传统的NLP任务(例如分类,翻译,摘要等)时,我们将转向传统的指标,例如准确性,精度,F1,BLEU和Rougethese指标,但今天仍然使用,但主要是在模型产生一个单一的,易于可比的“正确”的答案时。
以分类为例,任务是为每个文本分配一个单个标签。为了测试这一点,我们可以通过将模型分配的标签与eval数据集中的参考标签进行比较来使用精度,以查看它是否正确。
非常明确:如果分配错误的标签,则获得0;如果分配了正确的标签,则获得1。
这意味着,如果我们为带有1,000封电子邮件的垃圾邮件数据集构建分类器,并且模型标签910正确,精度为0.91。
,