我们引入了神经状态机,力求弥合人工智能的神经和符号视图之间的差距,并整合它们互补的优势以完成视觉推理任务。给定一张图像,我们首先预测一个表示其底层语义并作为结构化世界模型的概率图。然后,我们对图进行顺序推理,迭代遍历其节点以回答给定的问题或得出新的推论。与大多数旨在与原始感官数据紧密交互的神经架构不同,我们的模型在抽象的潜在空间中运行,通过将视觉和语言模态转换为基于语义概念的表示,从而实现增强的透明度和模块化。我们在 VQA-CP 和 GQA 上评估了我们的模型,这两个最近的 VQA 数据集涉及组合性、多步推理和多样化的推理技能,在这两种情况下都取得了最先进的结果。我们进行了进一步的实验,说明了该模型在多个维度上的强大泛化能力,包括概念的新组合、答案分布的变化和看不见的语言结构,证明了我们方法的质量和有效性。
摘要:活生物体可以通过响应外部和内部刺激来产生相应的功能,而这种易怒性在自然界中起着关键作用。受到这种自然时间响应的启发,具有处理时间相关信息的纳米版本的开发和设计可以促进分子信息处理系统的开发。在这里,我们提出了一台可以动态响应顺序刺激信号的DNA有限状态机。为了构建这款状态机,开发了一种可编程的变构策略。该策略使用可构造的DNA发夹对DNAZYME构象进行可编程控制。基于此策略,我们首先实施了具有两个状态的有限状态机器。通过策略的模块化设计,我们进一步实现了具有五个状态的有限状态机器。DNA有限状态机赋予分子信息系统具有可逆逻辑控制和秩序检测的能力,可以将其扩展到更复杂的DNA计算和纳米机械,以促进动态纳米技术的发展。