代理AI:评估

指标跟踪抹布和代理的指标,以及帮助邮政代理AI的框架:在评估方面,首先出现在数据科学方面。

来源:走向数据科学

主要是

这不是最激动人心的话题,但是越来越多的公司正在关注。因此,值得深入研究哪些指标可以实际衡量该性能。

,随着您推动更改时,可以进行适当的浮力,以确保事情不会出现干草。

因此,对于本文,我对多转聊,抹布和代理应用程序的常见指标进行了一些研究。

我还对Deepeval,Ragas和Openai的Evals库等框架进行了快速评论,因此您知道何时选择什么。

本文分为两分。如果您是新手,第1部分会讨论一些传统指标,例如Bleu和Rouge,涉及LLM基准测试,并介绍了使用LLM作为Evals法官的想法。

如果这不是您新的,则可以跳过此。第2部分挖掘对不同类型的LLM应用程序的评估。

我们在

如果您精通我们如何评估NLP任务以及公共基准的工作方式,则可以跳过第一部分。

如果不是,很高兴知道较早的指标(例如准确性和BLEU最初使用的目的)以及它们的工作方式,同时了解我们如何测试MMLU等公共基准。

评估NLP任务

当我们评估传统的NLP任务(例如分类,翻译,摘要等)时,我们将转向传统的指标,例如准确性,精度,F1,BLEU和Rougethese指标,但今天仍然使用,但主要是在模型产生一个单一的,易于可比的“正确”的答案时。

以分类为例,任务是为每个文本分配一个单个标签。为了测试这一点,我们可以通过将模型分配的标签与eval数据集中的参考标签进行比较来使用精度,以查看它是否正确。

非常明确:如果分配错误的标签,则获得0;如果分配了正确的标签,则获得1。

这意味着,如果我们为带有1,000封电子邮件的垃圾邮件数据集构建分类器,并且模型标签910正确,精度为0.91。

LLM基准

LLM得分手