大语言模型(LLM)批评和完善推理的能力对于他们在评估,反馈提供和自我完善中的应用至关重要。本文介绍了C ritic B Ench,这是一个综合基准,旨在评估LLMS批评和纠正其跨各种任务的推理的能力。c ritic b ench包括五个推理领域:数学,commensense,象征性,编码和算法。它编译了15个数据集,并结合了来自三个LLM家族的重音。利用C ritic b ench,我们评估和剖析了17个LLM在生成,批评和校正推理中的表现,即GQC推理,并分析影响LLM批判性推理的关键因素。我们的发现揭示了:(1)GQC能力中的线性关系,以批判性的训练显着增强了表现; (2)依赖于任务和校正效率的任务变化,面向逻辑的任务更适合纠正; (3)随着模型大小增加而减小的GQC知识不一致; (4)一种有趣的模型间批判模式,在批评较弱的模型方面,更强大的模型更能更好,而较弱的模型可以超越其自我评价中的更强的模型。我们希望这些对LLM的细微批评的见解将进一步促进LLM批评和自我改善1。
1 土耳其科尼亚塞尔丘克大学药学院药物化学系 * 通讯作者电子邮件:kucukogluk35@hotmail.com 要点 人类谷氨酰胺环化酶 (hQC) 有两种同工型,即分泌型 QC (也称为 sQC) 和高尔基定位型 QC (也称为 isoQC 或 gQC)。 hQC 通过释放氨或水介导 N 端谷氨酰胺或谷氨酸残基的环化。 在某些疾病中,QC 的分泌水平会增加,例如阿尔茨海默氏症 (AD)、亨廷顿氏病 (HD)、黑色素瘤、甲状腺癌、动脉粥样硬化的快速形成、化脓性关节炎。 近年来,发现抑制 QC 的新药被认为是预防和治疗许多生理问题和疾病的重要方法。 已发现具有咪唑骨架的化合物具有抑制 QC 的潜力。这些药物中最引人注目的一种是瓦罗谷氨酸司他,目前正处于阶段研究中。 ARTICLEINFO 收稿日期:2022 年 5 月 21 日 接受日期:2022 年 6 月 25 日 发表日期:2022 年 7 月 15 日 关键词:阿尔茨海默氏症淀粉样蛋白β谷氨酰胺环化酶焦谷氨酸修饰瓦罗谷氨酸司他