深度神经网络最近已成为思考人类视觉学习的卓越计算工具。最近的研究探索了改变自然图像的影响,并比较了人类和模型的反应,为它们的功能以及深度神经网络如何塑造我们对人类学习的理解提供了宝贵的见解。至关重要的是,人类的大部分视觉学习都发生在早期发展过程中。然而,将人工智能模型与年轻人进行比较的良好控制的基准很少。在这里,我们提出了一个以发展为导向的分布外 (OOD) 对象识别基准。我们的基准 ModelVsBaby 包括一组在视觉科学文献中长期研究的 OOD 条件,预计对人类 OOD 对象识别的发展很敏感:轮廓、几何、遮挡、模糊、拥挤的背景和基线现实条件。除了刺激之外,我们还发布了一个独特的数据集,其中包含 2 岁儿童对刺激的反应。我们对数据集的初步分析显示出几个有趣的模式:2 岁儿童在轮廓条件下的准确率达到 80%,几乎与现实条件(概率 = 12%)一样好。在其他具有挑战性的条件下,他们的表现也远高于概率,接近 60%。我们还评估了在不同数量的互联网规模数据集上训练的图像文本关联 (CLIP) 模型。模型性能表明,只要有足够的数据,人工智能学习者就可以学习所有条件。然而,现实和轮廓需要较少的训练数据才能学习,就像人类一样。我们的基准刺激和婴儿反应为构建与人类在学习成果和学习轨迹方面保持一致的计算模型提供了重要的垫脚石。这项努力可以为创建更好的视觉发展模型提供依据,并提高人工智能系统在实际应用中的效率。未来的工作可能会使用基准刺激来测试更多的年龄组,并在“发展一致性”方面对各种风格的模型进行详细比较。
主要关键词