Loading...
机构名称:
¥ 1.0

我们引入了神经状态机,力求弥合人工智能的神经和符号视图之间的差距,并整合它们互补的优势以完成视觉推理任务。给定一张图像,我们首先预测一个表示其底层语义并作为结构化世界模型的概率图。然后,我们对图进行顺序推理,迭代遍历其节点以回答给定的问题或得出新的推论。与大多数旨在与原始感官数据紧密交互的神经架构不同,我们的模型在抽象的潜在空间中运行,通过将视觉和语言模态转换为基于语义概念的表示,从而实现增强的透明度和模块化。我们在 VQA-CP 和 GQA 上评估了我们的模型,这两个最近的 VQA 数据集涉及组合性、多步推理和多样化的推理技能,在这两种情况下都取得了最先进的结果。我们进行了进一步的实验,说明了该模型在多个维度上的强大泛化能力,包括概念的新组合、答案分布的变化和看不见的语言结构,证明了我们方法的质量和有效性。

通过抽象学习:神经状态机

通过抽象学习:神经状态机PDF文件第1页

通过抽象学习:神经状态机PDF文件第2页

通过抽象学习:神经状态机PDF文件第3页

通过抽象学习:神经状态机PDF文件第4页

通过抽象学习:神经状态机PDF文件第5页