详细内容或原文请订阅后点击阅览

GSM-Symbolic：了解大型语言模型中数学推理的局限性

2024年10月11日 00:00 33 Comments

大型语言模型 (LLM) 的最新进展引发了人们对其形式推理能力的兴趣，尤其是在数学方面。GSM8K 基准被广泛用于评估模型在小学水平问题上的数学推理能力。虽然近年来 LLM 在 GSM8K 上的表现显着提高，但它们的数学推理能力是否真正进步仍不清楚，这引发了人们对所报告指标可靠性的质疑。为了解决这些问题，我们对几个 SOTA 开放和封闭模型进行了大规模研究。为了……

来源:Apple机器学习研究

429太多请求

脆弱性推理可靠性评估模型 Symbolic 下降研究局限性 GSM LLM 不同的提高模型数学模型的 GSM8K 问题模板能力大规模人们进行

GSM-Symbolic：了解大型语言模型中数学推理的局限性

429太多请求

其他外部链接

Tags

XiaoMi-AI