Loading...
机构名称:
¥ 1.0

摘要 在图像数量庞大、人们无法快速检索所需信息的当今世界,我们迫切需要一种更加简便、人性化的图像理解方式,图像字幕应运而生。图像字幕,顾名思义,就是通过分析理解图像信息,生成特定图像的自然语言描述,近年来被广泛应用于图文交叉研究、婴幼儿教育、弱势群体帮扶以及产业界的青睐,产生了许多优秀的研究成果。目前对图像字幕的评价基本基于BLUE、CIDEr等客观评价指标,容易导致生成的字幕无法接近人类语言表达,而GAN思想的引入使得我们能够采用对抗训练这种新的方法来对生成的字幕进行评价,评价模块更加自然、全面。考虑到对图像逼真度的要求,本课题提出了一种基于GAN的图像描述。引入Attention机制来提高图像保真度,使得生成的字幕更加准确,更接近人类的语言表达。

图像字幕结合GAN训练方法

图像字幕结合GAN训练方法PDF文件第1页

图像字幕结合GAN训练方法PDF文件第2页

图像字幕结合GAN训练方法PDF文件第3页

图像字幕结合GAN训练方法PDF文件第4页

图像字幕结合GAN训练方法PDF文件第5页