图像字幕(自动生成图像的描述标题的任务)由于其潜力弥合视觉和语言理解之间的差距而引起了极大的关注。随着深度学习的进步,尤其是用于序列产生的特征提取和复发神经网络(RNN)的卷积神经网络(CNN),神经图像标题发生器在产生的字幕的质量和流利程度上都取得了重大进展。本文调查了图像字幕技术的演变,从传统模型到现代深度学习方法,包括使用变压器和多峰模型。我们讨论了关键组件,例如图像表示,字幕生成和注意机制,并检查大规模数据集和评估指标的作用。尽管取得了长足的进步,但在语义理解,上下文相关性和处理偏见等领域仍存在挑战。这项调查以研究目前的研究状态并概述了该领域的潜在方向,包括探索零射击学习,多模式集成以及改善字幕模型的概括。
主要关键词