视觉问题的跨模式关系推理网络回答__

视觉问题的跨模式关系推理网络回答

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

视觉问题的跨模式关系推理网络回答

¥ 1.0

热度

视觉问题回答（VQA）是一项具有挑战性的任务，需要通过关系推理对图像和问题进行跨模式理解，从而导致正确答案。为了弥合这两种方式之间的语义差距，以前的作品着重于所有可能对的单词区域对齐，而无需更多地关注相应的单词和对象。同样处理所有对，而无需考虑关系一致性，这是模型的性能。在本文中，为了对齐关系对并整合VQA系统的解释性，我们提出了一个跨模式的关系构建网络（CRRN），以掩盖不一致的注意力图，并突出相应单词对的全部潜在比对。具体来说，我们提出了两个相关性掩码，用于模式间和模式内突出显示，从而推断出图像中句子或区域中越重要的单词。可以通过掩盖未对齐的关系来增强一致对的关注相互关系。然后，我们提出了两个新颖的损失L CMAM和L SMAM，并具有明确的超级视觉，以捕获视觉和语言之间的细粒度相互作用。我们进行了彻底的实验来证明有效性并实现了GQA基准的竞争性绩效，以达到61.74％。

添加pdf代下载 VIP点击下载文件

视觉问题的跨模式关系推理网络回答

主要关键词

以前的细粒度重要的互作用相应相互关系模型的不一致图像相应的关系 VQA 无需相关性提出模式一致的基准的区域系统的进行对齐明确的掩盖视觉相互作用有效性单词问题注意力不一致的一致性

视觉问题的跨模式关系推理网络回答PDF文件第1页

视觉问题的跨模式关系推理网络回答PDF文件第2页

视觉问题的跨模式关系推理网络回答PDF文件第3页

视觉问题的跨模式关系推理网络回答PDF文件第4页

视觉问题的跨模式关系推理网络回答PDF文件第5页

可下载资源数量

已经购买

下载数量：1

视觉问题的跨模式关系推理网络回答

视觉问题的跨模式关系推理网络回答

相关文件推荐

定量推理问题和回答主要6

定量推理问题和回答主要5

桥接2D和3D视觉问题之间的差距回答：3D VQA

drivelm：用图形驾驶视觉问题回答

drivelm：用图形驾驶视觉问题回答

drivelm：用图形驾驶视觉问题回答

问题回答

问题回答

回答您的问题

回答您的问题

您的MRI问题回答了！

将控制作为推理问题

关于马疫苗的问题，回答。

脑损伤后的视觉问题

为赢而战的策略将回答五个问题

脑损伤后的视觉问题

东方号回答问题

融合域适应域的视觉和医学视觉问题的语言模型回答

讲座13：问题回答

定量推理实践问题

定量推理实践问题

回答有关生成AI安全性的4个最大问题

卷积神经网络与视觉变压器

网络内机器学习推理的快速原型

回答重罪问题的四步策略

视觉变换器看起来是否像卷积神经网络？

网络空间：这是问题和挑战

美越经贸关系：2020 年的问题

国际关系网络分析

欧盟委员会问题 - 回答

XiaoMi-AI