近年来,人工智能取得了长足进步,然而,大多数系统仍然难以推广。在这项工作中,我们探索了一个模型,该模型可以重现人类通过无监督的日常经验获得“数字感”的能力。理解和操纵数字和数量的能力在童年时期就出现了,但人类获得和发展这种能力的机制仍然知之甚少。特别是,我们不知道在没有老师监督的情况下是否有可能获得这种数字感。我们通过一个模型来探索这个问题,假设学习者能够拾取和放置小物体,并会自发地进行无方向的操作。我们进一步假设学习者的视觉系统将监控场景中物体的变化排列,并将学会通过将感知与运动系统的传出信号进行比较来预测每个动作的影响。我们使用标准深度网络对感知进行建模,以进行特征提取和分类,以及梯度下降学习。我们的主要发现是,从学习不相关的动作预测任务中,出现了一种意想不到的图像表征,其表现出预示着数字和数量的感知和表征的规律。这些包括零和前几个自然数的不同类别、数字的严格排序以及与数值相关的一维信号。因此,我们的模型获得了估计数量(即场景中物体的数量)的能力,以及速算能力,即一眼就能识别小场景中物体的确切数量的能力。值得注意的是,速算和数量估计可以推断到包含许多物体的场景,远远超出训练期间使用的三个物体。我们得出结论,数字和数量能力的重要方面可以在没有老师监督的情况下学习。我们的观察表明,跨模态学习(这里是操纵教学感知)是一种强大的学习机制,可以在人工智能中加以利用。
主要关键词