Loading...
机构名称:
¥ 1.0

生成模型已经证明了跨编程,自然科学和一般知识等领域的各种基准标记的人类水平熟练程度。尽管在竞争性基准上有这些有希望的结果,但他们仍然在基本级学生通常执行的看似简单的解决问题的任务方面挣扎。最新模型如何在旨在评估学校计算思维和解决问题技能的标准化测试上执行?在本文中,我们策划了一个新颖的基准测试,该基准涉及基础视觉编程领域中的计算思维测试。我们的最初结果表明,诸如GPT-4O和Llama3之类的最先进模型几乎不符合普通学校学生的表现。为了进一步提高这些模型的性能,我们使用新型的合成数据生成方法对其进行了微调。关键想法是使用符号方法来开发一个综合数据集,该方法捕获不同的技能水平,从识别视觉元素到多选择测验到综合式任务。我们展示了合成数据中符号信息的各个方面如何有助于改善微调模型的性能。我们将发布完整的实施和数据集,以促进有关增强生成模型中计算思维的进一步研究。

基于基本视觉编程中计算思维测试的生成模型

基于基本视觉编程中计算思维测试的生成模型PDF文件第1页

基于基本视觉编程中计算思维测试的生成模型PDF文件第2页

基于基本视觉编程中计算思维测试的生成模型PDF文件第3页

基于基本视觉编程中计算思维测试的生成模型PDF文件第4页

基于基本视觉编程中计算思维测试的生成模型PDF文件第5页