抽象的2D图像理解是计算机视觉中的一个复杂问题,但它是提供人级场景理解的关键。它比识别图像中的对象更进一步,而是尝试理解场景。解决此问题的解决方案构成了一系列任务的基础,包括图像字幕,视觉问题答案(VQA)和图像检索。图提供了一种自然的方式来表示图像中对象之间的关系布置,因此,近年来,图形神经网络(GNN)已成为许多2D图像理解管道的标准组成部分,成为核心体系结构组件,尤其是在VQA任务中。在本调查中,我们回顾了这种快速发展的场,并提供了2D图像理解方法中使用的图形类型的分类法,该域中使用的GNN模型的全面列表以及未来潜在发展的路线图。据我们所知,这是第一个综合调查,涵盖图像字幕,视觉问题的答案和图像检索技术,其重点是将GNN用作其架构的主要部分。
主要关键词