详细内容或原文请订阅后点击阅览
llms尝试推理:基于文本和视觉的抽象实验
大型语言模型可以学会从几个示例中抽象地推理?在本文中,我通过在抽象网格转换任务上测试基于文本的(O3-MINI)和具有图像能力的模型(GPT-4.1)模型来探讨这个问题。这些实验揭示了当前模型依赖于模式匹配,程序启发式和象征性快捷方式而不是强大的概括的程度。即使有多模式输入,推理也经常在微妙的抽象面前分解。结果为使用LLM的当前功能和局限性提供了一个窗口。当LLMS尝试推理的帖子:基于文本和视觉的抽象中的实验首先出现在数据科学方面。
来源:走向数据科学模型学会从几个示例中抽象地推理?在本文中,我通过在抽象网格转换任务上测试基于文本的(O3-MINI)和具有图像能力的模型(GPT-4.1)模型来探讨这个问题。这些实验揭示了当前模型依赖于模式匹配,程序启发式和象征性快捷方式而不是强大的概括的程度。即使有多模式输入,推理也经常在微妙的抽象面前分解。结果为使用LLM的当前功能和局限性提供了一个窗口。
简介
元学习,系统学习如何学习的能力,传统上是通过基于梯度的优化,内存增强网络或明确的任务嵌入来探索的。但是,随着大语言模型(LLM)的兴起,尤其是具有高级推理能力的O3家族,出现了一个新问题:我们可以将LLM自己用作诸如ARC之类的基于任务的域中的元学习者吗? FrançoisChollet引入的抽象和推理语料库(ARC)是一种明确设计的基准,用于测试广泛的概括。它提供了最小的监督,每个任务的示例很少,并且在任务之间通常没有共享的表面级结构,提供了输入输出转换难题。换句话说:元学习的操场。为了了解典型的抽象和推理任务,读者可以访问ARC Play页面。
弧 页数据和设置
O3-Mini
ARC奖2025 Kaggle竞赛
在这里
每个任务提供:
一些培训示例(输入和输出2D网格)一个单个测试输入网格,该网格必须预测相应的输出
一些培训示例(输入和输出2D网格)
培训示例
输入
输出
测试输入
matplotlib
gpt-4.1
提示_REASAN
O3-Mini
ARC奖2025 Kaggle竞赛
在这里
- 每个任务提供:
培训示例
输入
输出
测试输入
matplotlib
gpt-4.1提示_REASAN