这个难题显示了LLM在一年多以上的进步

GPT-4o 需要 2 个小时才能解决的问题,Sonnet 4.5 只需 5 秒就能解决。这篇文章《这个谜题显示了法学硕士在一年多一点的时间里取得了多大进展》首先出现在《走向数据科学》上。

来源:走向数据科学

在过去的几年中,LLM的能力取得了巨大进步,但是很难量化它们的表现。

让我回想起去年在YouTube频道上遇到的几何问题。那是在2024年6月,我试图在当时获得领先的大型语言模型(GPT-4O)来解决难题。这并不是那么好,需要大量的努力来找到解决方案,我想知道最新的LLM会如何以同样的难题来表现出来。

很多

难题

这很快提醒了我当时要求LLM解决的问题。假设我们具有以下点/节点网格。在X和Y平面中,每个节点恰好是距其相邻邻居的一个单元。看起来像这样,

现在,我想回答的问题是,

在此图上可以绘制多少个不同的正方形?

很快就很清楚GPT-4O不知道答案,所以我稍微改变了钉子,而是问了一下。

我想要一个python程序,该程序绘制了我们可以在附件图上绘制的所有正方形,假设任何正方形的角都必须位于图表上的一个斑点上。假设每个相邻位置在X和Y方向上都相距1个单位。还要打印出相同大小的正方形数量及其侧长的概述

长话短说,我最终让GPT-4O提出了一个正确的基于Python的解决方案。尽管如此,我花了大约两个小时的时间,而我的40多个迭代却与模型一起来了,以完善其答案,直到提出有效的东西为止。

最终
nb,您是否解决了答案?即使是现在,我仍然不太相信您可以在这张图上绘制21个正方形。 与十四行诗的互动4.5 要使用十四行诗4.5,我访问了Anthropic的首页。 https://www.anththropic.com 您应该看到这样的页面。 来自人类网站的图像 “尝试Claude” 它回来了, 最终答案 十四行诗4.5在生成其Python代码之前所有5秒钟的思考。 花了小时

nb,您是否解决了答案?即使是现在,我仍然不太相信您可以在这张图上绘制21个正方形。

与十四行诗的互动4.5

要使用十四行诗4.5,我访问了Anthropic的首页。

https://www.anththropic.com

您应该看到这样的页面。
来自人类网站的图像

“尝试Claude”

它回来了,

最终答案

十四行诗4.5在生成其Python代码之前所有5秒钟的思考。花了小时