Loading...
机构名称:
¥ 2.0

抽象的2D图像理解是计算机视觉中的一个复杂问题,但它是提供人级场景理解的关键。它比识别图像中的对象更进一步,而是尝试理解场景。解决此问题的解决方案构成了一系列任务的基础,包括图像字幕,视觉问题答案(VQA)和图像检索。图提供了一种自然的方式来表示图像中对象之间的关系布置,因此,近年来,图形神经网络(GNN)已成为许多2D图像理解管道的标准组成部分,成为核心体系结构组件,尤其是在VQA任务中。在本调查中,我们回顾了这种快速发展的场,并提供了2D图像理解方法中使用的图形类型的分类法,该域中使用的GNN模型的全面列表以及未来潜在发展的路线图。据我们所知,这是第一个综合调查,涵盖图像字幕,视觉问题的答案和图像检索技术,其重点是将GNN用作其架构的主要部分。

视觉图像理解中的图形神经网络

视觉图像理解中的图形神经网络PDF文件第1页

视觉图像理解中的图形神经网络PDF文件第2页

视觉图像理解中的图形神经网络PDF文件第3页

视觉图像理解中的图形神经网络PDF文件第4页

视觉图像理解中的图形神经网络PDF文件第5页

相关文件推荐