详细内容或原文请订阅后点击阅览
这个难题显示了LLM在一年多以上的进步
GPT-4o 需要 2 个小时才能解决的问题,Sonnet 4.5 只需 5 秒就能解决。这篇文章《这个谜题显示了法学硕士在一年多一点的时间里取得了多大进展》首先出现在《走向数据科学》上。
来源:走向数据科学在过去的几年中,LLM的能力取得了巨大进步,但是很难量化它们的表现。
让我回想起去年在YouTube频道上遇到的几何问题。那是在2024年6月,我试图在当时获得领先的大型语言模型(GPT-4O)来解决难题。这并不是那么好,需要大量的努力来找到解决方案,我想知道最新的LLM会如何以同样的难题来表现出来。
很多难题
这很快提醒了我当时要求LLM解决的问题。假设我们具有以下点/节点网格。在X和Y平面中,每个节点恰好是距其相邻邻居的一个单元。看起来像这样,
现在,我想回答的问题是,
在此图上可以绘制多少个不同的正方形?
很快就很清楚GPT-4O不知道答案,所以我稍微改变了钉子,而是问了一下。
我想要一个python程序,该程序绘制了我们可以在附件图上绘制的所有正方形,假设任何正方形的角都必须位于图表上的一个斑点上。假设每个相邻位置在X和Y方向上都相距1个单位。还要打印出相同大小的正方形数量及其侧长的概述
长话短说,我最终让GPT-4O提出了一个正确的基于Python的解决方案。尽管如此,我花了大约两个小时的时间,而我的40多个迭代却与模型一起来了,以完善其答案,直到提出有效的东西为止。
最终nb,您是否解决了答案?即使是现在,我仍然不太相信您可以在这张图上绘制21个正方形。 与十四行诗的互动4.5 要使用十四行诗4.5,我访问了Anthropic的首页。 https://www.anththropic.com 您应该看到这样的页面。 来自人类网站的图像 “尝试Claude” 它回来了, 最终答案 十四行诗4.5在生成其Python代码之前所有5秒钟的思考。 花了小时
nb,您是否解决了答案?即使是现在,我仍然不太相信您可以在这张图上绘制21个正方形。
与十四行诗的互动4.5
要使用十四行诗4.5,我访问了Anthropic的首页。
https://www.anththropic.com
“尝试Claude”
它回来了,
最终答案
十四行诗4.5在生成其Python代码之前所有5秒钟的思考。花了小时