对批判性推理的基准测试LLM___XiaoMi-AI 助力科研平台

对批判性推理的基准测试LLM

可下载资源数量

已经购买

下载数量：1

单价	0 3.0
Coupon	100% 0%
Total	0 3.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

对批判性推理的基准测试LLM

¥ 3.0

热度

大语言模型（LLM）批评和完善推理的能力对于他们在评估，反馈提供和自我完善中的应用至关重要。本文介绍了C ritic B Ench，这是一个综合基准，旨在评估LLMS批评和纠正其跨各种任务的推理的能力。c ritic b ench包括五个推理领域：数学，commensense，象征性，编码和算法。它编译了15个数据集，并结合了来自三个LLM家族的重音。利用C ritic b ench，我们评估和剖析了17个LLM在生成，批评和校正推理中的表现，即GQC推理，并分析影响LLM批判性推理的关键因素。我们的发现揭示了：（1）GQC能力中的线性关系，以批判性的训练显着增强了表现；（2）依赖于任务和校正效率的任务变化，面向逻辑的任务更适合纠正；（3）随着模型大小增加而减小的GQC知识不一致；（4）一种有趣的模型间批判模式，在批评较弱的模型方面，更强大的模型更能更好，而较弱的模型可以超越其自我评价中的更强的模型。我们希望这些对LLM的细微批评的见解将进一步促进LLM批评和自我改善1。

添加pdf代下载 VIP点击下载文件