●4801计算机科学I●4838机械制图和设计II●5236计算机科学II●5249计算机科学III:软件开发帽岩石●5250计算机科学III:数据库●5251计算机科学III:信息学III:信息学:信息学●5253 Computer Science III:Cybersecurity II:Cybersecurity II:Cybersecurity II●56 ARTACTECTART●5652 ARTACTECTER●5652 ARTACTECTERCTINTER●5652 ARTACTECTERT●5652 ARTACTECTERCTINTER●5652 ARTACTECTITIC电子和计算机技术II●7197 BIM体系结构●7200电力和电动机的基础●7202制造原理和设计●7223机械设计Capstone●7351计算机科学中的主题●7352 7361计算机科学●7361电子基础●7362电子基础●7362电子技术●7362电子capstone
摘要:我们表明,通过扩展主动推理框架,可以在目的论框架中制定目标导向的行动规划和生成。所提出的模型建立在变分递归神经网络模型上,具有三个基本特征。这些特征是:(1)可以为静态感官状态(例如要达到的目标图像)和动态过程(例如围绕物体移动)指定目标;(2)该模型不仅可以生成目标导向的行动计划,还可以通过感官观察来理解目标;(3)该模型根据从过去的感官观察推断出的当前状态的最佳估计,为给定目标生成未来的行动计划。通过在模拟移动代理以及执行对象操作的真实人形机器人上进行实验来评估所提出的模型。
Wei等人,《经过思考链》提示在大语言模型中引起推理,Neurips 2022。nye等人,展示您的作品:与语言模型中间计算的刮擦程序,2021。
视觉问题回答(VQA)是一项具有挑战性的任务,需要通过关系推理对图像和问题进行跨模式理解,从而导致正确答案。为了弥合这两种方式之间的语义差距,以前的作品着重于所有可能对的单词区域对齐,而无需更多地关注相应的单词和对象。同样处理所有对,而无需考虑关系一致性,这是模型的性能。在本文中,为了对齐关系对并整合VQA系统的解释性,我们提出了一个跨模式的关系构建网络(CRRN),以掩盖不一致的注意力图,并突出相应单词对的全部潜在比对。具体来说,我们提出了两个相关性掩码,用于模式间和模式内突出显示,从而推断出图像中句子或区域中越重要的单词。可以通过掩盖未对齐的关系来增强一致对的关注相互关系。然后,我们提出了两个新颖的损失L CMAM和L SMAM,并具有明确的超级视觉,以捕获视觉和语言之间的细粒度相互作用。我们进行了彻底的实验来证明有效性并实现了GQA基准的竞争性绩效,以达到61.74%。
视觉语言(VL)模型已获得了显着的重点,从而在多模式推理方面取得了显着进步。这些体系结构通常包括视觉编码器,大型语言模型(LLM)和一个将视觉特征与LLM的代表空间保持一致的投影模块。尽管他们成功了,但仍然存在一个关键的限制:愿景编码过程仍然与用户查询相关,通常是以与图像相关的问题的形式。因此,所得的视觉特征可能无法最佳地调整图像的特定元素。为了解决这个问题,我们介绍了QA-Vit,这是一种问题的多模式原因,这是一种问题,将问题意识直接嵌入到视觉编码器中。此集成导致动态视觉特征,重点是提出问题的相关图像方面。QA-VIT是模型 - 静态的,并且可以有效地将其置于任何VL体系结构中。广泛的经验证明了将我们的方法应用于各种多模式体系结构的有效性,从而导致跨不同任务的一致改进,并展示了其以增强视觉和场景文本理解的能力。
我们提出了一种基于辩论动态的知识图谱自动推理新方法。其主要思想是将三重分类任务构建为两个强化学习代理之间的辩论游戏,它们提取论据(知识图谱中的路径),目标是分别促使事实为真(论点)或事实为假(反论点)。基于这些论据,一个称为评判者的二元分类器决定事实是真是假。这两个代理可被视为稀疏的对抗性特征生成器,为论点或反论点提供可解释的证据。与其他黑箱方法相比,这些论据让用户能够了解评判者的决定。由于这项工作的重点是创建一种可解释的方法以保持具有竞争力的预测准确率,因此我们在三重分类和链接预测任务上对我们的方法进行了基准测试。因此,我们发现我们的方法在基准数据集 FB15k-237、WN18RR 和 Hetionet 上的表现优于几个基线。我们还进行了一项调查,发现提取的参数对用户很有帮助。