GSM-Symbolic:分析 LLM 在数学推理中的局限性和潜在解决方案

这篇关于 LLM 推理的论文的正确之处 — — 以及它所遗漏之处。合著者:Alex Watson、Yev Meyer、Dane Corneil、Maarten Van Segbroeck (Gretel.ai)来源:Gretel.ai简介大型语言模型 (LLM) 最近在 AI 推理方面取得了重大进展,包括数学问题解决。然而,Mirzadeh 等人最近发表的一篇题​​为“GSM-Symbolic:理解大型语言模型中数学推理的局限性”的论文提出了关于这些模型在数学推理方面的真正能力的问题。我们审查了这篇论文,发现它对正在进行的关于 AI 能力和局限性的讨论做出了宝贵的贡献,然而,我们的分析表明,它的结论可能没有完全捕捉到问题的复杂性。GSM-Symbolic 基准作者介绍了 GSM-Symbolic,这是一种从流行的 GSM8K 数据集派生的增强基准。这一新基准允许生成各种问题变体,从而能够更细致地评估 LLM 在各种设置下的表现。该研究对 25 个最先进的开放和封闭模型进行了大规模分析,为这些模型在面对数学推理任务时的表现提供了重要见解。图 1:GSM-Symbolic:了解大型语言模型中数学推理的局限性(来源:Mirzadeh 等人,GSM-Symbolic 论文)性能可变性和模型比较最令人惊讶的发现之一是高可变性

来源:走向数据科学

GSM-Symbolic:分析数学推理和潜在解决方案中的LLM限制

LLM推理上的论文正确 - 以及错过了什么。

合着者:Alex Watson,Yev Meyer,Dane Corneil,Maarten Van Segbroeck(Gretel.ai)

来源:gretel.ai

简介

大型语言模型(LLMS)最近在AI推理中取得了重大进步,包括数学解决问题。然而,Mirzadeh等人最近的一篇题为“ GSM-Symbolic:了解大语言模型中数学推理的局限性”的论文。在数学推理方面,提出了有关这些模型的真正能力的问题。我们已经审查了该论文,并发现它对正在进行的有关AI功能和局限性的讨论是有价值的贡献,但是,我们的分析表明,其结论可能无法完全捕获问题的复杂性。

GSM-Symbolic:了解大语模型中数学推理的局限性

GSM符号基准

作者介绍了GSM-Symbolic,这是一种从流行的GSM8K数据集中得出的增强基准。这种新的基准允许产生各种问题变体,从而使对LLM在各种设置中的性能进行更细微的评估。该研究对25种最新开放和封闭模型的大规模分析提供了有关这些模型在面对数学推理任务时如何行事的重要见解。

图1:GSM-Symbolic:了解大语言模型中数学推理的局限性(来源:Mirzadeh等,GSM-Symbolic Paper)
Mirzadeh等人,GSM-Symbolic Paper

性能变异性和模型比较

GSM8K
图3:GSM符号:了解大语言模型中数学推理的局限性(来源:Mirzadeh等,GSM-Symbolic Paper)
并非所有模型都是平等的。 Llama-3–8b GPT-4O gemma-2–9b phi-3 phi-3.5 Mathstral-7b 博客链接

对变化和复杂性的敏感性

GSM-Noop挑战

GSM-Symbolic性能

看似