摘要 - 在过去的十年中,编码器二十字架框架的图像字幕显示出巨大的进步,在过去的十年中,CNN主要用作编码器,LSTM用作解码器。尽管在简单图像中的准确性方面取得了令人印象深刻的成就,但它在时间复杂性和空间复杂性效率方面缺乏。除此之外,如果具有许多信息和对象的复杂图像,则该CNN-LSTM对的性能由于缺乏对图像中显示的场景的语义理解而呈指数降级。因此,要考虑这些问题,我们提出了CNN-GRU编码器解码框架,用于字幕到图像重建器,以考虑到语义上下文以及时间复杂性。通过考虑解码器的隐藏状态,将输入图像及其相似的语义表示是重建的,并且在模型训练过程中使用了语义重建器的重建分数与可能的可能性使用,以评估生成的字幕的质量。结果,解码器会收到改进的语义信息,从而增强了字幕生产过程。在模型测试期间,选择最合适的标题也可行。建议的模型优于最先进的LSTM-A5模型,用于图片的图片字幕,以时间复杂性和准确性。
主要关键词