人工智能领域自诞生之日起就对知识感兴趣,它使用精心设计的规则和从人类那里收集的知识来构建有效的专家系统。从那时起,许多领域,如计算机视觉和自然语言处理,一直由使用大型数据集的大规模端到端学习所主导。这往往使知识成为许多重要问题的后续考虑。然而,随着我们在 ImageNet 挑战赛 [ 294 ] 等大型挑战和数据集上的表现达到饱和,并且该领域越来越关注诸如大类别识别和完全具身人工智能(需要理解多种模态的代理)的问题,知识将变得更加重要。在本文中,我们认为,要实现聪明机器人或具身人工智能的目标,我们需要处理视觉、语言和动作这三种模态。我们进一步认为,知识是连接这些模式的关键部分。