详细内容或原文请订阅后点击阅览
如何基准LLMS - ARC AGI 3
了解如何对LLM进行基准测试,然后尝试新发布的ARC AGI 3 THE THE THE POST如何基准LLMS - ARC AGI 3首先出现在数据科学方面。
来源:走向数据科学最近几周,我们看到了强大的LLM的发布,例如QWEN 3 MOE,KIMI K2和GROK 4。我们将在可预见的将来继续看到如此快速的改进,并将LLMS相互比较,我们需要基准测试。在本文中,我讨论了新发布的ARC AGI 3基准,以及为什么Frontier LLMS努力完成基准上的任何任务。
动机
我写这篇文章的动机是保持LLM技术的最新发展。只有在过去的几周中,我们才看到了Kimi K2型号(发布时最好的开源型号),QWEN 3 235B-A22B(目前最好的开源型号),Grok 4等。 LLM空间中发生了太多事情,并且一种跟踪的方法是跟踪基准。
只有在过去的几周中,我们才看到了Kimi K2型号(最佳开放式 kimi k2 QWEN 3 235B-A22B Grok 4我认为ARC AGI基准特别有趣,主要是因为我想看看LLM是否可以匹配人类水平的智能。制作了Arc Agi难题,以便人类能够完成它们,但LLM会挣扎。
您还可以阅读我有关利用上下文工程来显着提高LLM性能的文章,并查看我的网站,其中包含我所有的信息和文章。
利用上下文工程来显着提高LLM性能 我的网站,其中包含我所有的信息和文章。目录
ARC AGI概论
ARC AGI本质上是图案匹配的拼图游戏。
- arc agi 1:给您一系列输入输出对,必须完成模式AGI 2:类似于第一个基准,在输入和输出示例上执行模式匹配3:在这里,您在玩游戏,您必须在其中移动目标区域,但是在
- 7.8%,O1 mini75%,O3-Low88%,O3-high
7.8%的O1 mini