对批判性推理的基准测试LLM
机构名称:
¥ 3.0

大语言模型(LLM)批评和完善推理的能力对于他们在评估,反馈提供和自我完善中的应用至关重要。本文介绍了C ritic B Ench,这是一个综合基准,旨在评估LLMS批评和纠正其跨各种任务的推理的能力。c ritic b ench包括五个推理领域:数学,commensense,象征性,编码和算法。它编译了15个数据集,并结合了来自三个LLM家族的重音。利用C ritic b ench,我们评估和剖析了17个LLM在生成,批评和校正推理中的表现,即GQC推理,并分析影响LLM批判性推理的关键因素。我们的发现揭示了:(1)GQC能力中的线性关系,以批判性的训练显着增强了表现; (2)依赖于任务和校正效率的任务变化,面向逻辑的任务更适合纠正; (3)随着模型大小增加而减小的GQC知识不一致; (4)一种有趣的模型间批判模式,在批评较弱的模型方面,更强大的模型更能更好,而较弱的模型可以超越其自我评价中的更强的模型。我们希望这些对LLM的细微批评的见解将进一步促进LLM批评和自我改善1。

对批判性推理的基准测试LLM

对批判性推理的基准测试LLMPDF文件第1页

对批判性推理的基准测试LLMPDF文件第2页

对批判性推理的基准测试LLMPDF文件第3页

对批判性推理的基准测试LLMPDF文件第4页

对批判性推理的基准测试LLMPDF文件第5页

相关文件推荐

基准测试仪表盘
2022 年
¥1.0
基准测试指南
2024 年
¥4.0
AI 与万物基准测试
2022 年
¥1.0
关键推理测试电池
2021 年
¥2.0
基准测试规格和报告