Loading...
机构名称:
¥ 1.0

快速浏览的图像。尽管在计算机视觉中已经进行了巨大的发展,但诸如识别对象,动作分类,图像分类,属性分类和场景识别之类的任务是可能的,但是让计算机描述以类似人类句子的形式向其转发到它的图像是一个相对较新的任务。2。文献回顾了Andrej Karpathy等人的有影响力论文之一。在图像字幕中将任务划分为两个步骤:将句子段映射到图像中的视觉区域,然后使用这些通信来生成新的描述(Karpathy and Fei-Fei 2015)。作者使用区域卷积神经网络(RCNN)表示图像作为一组H维矢量,每个向量代表图像中的对象,基于200个Imagenet类检测到。作者在同一h维空间中的双向复发神经网络(BRNN)代表句子。每个句子是一组H维向量,代表片段或单词。BRNN的使用丰富了此表示,因为它学习了句子中每个单词上下文的知识。作者发现,有了这样的表示,单词的最终表示与与同一概念相关的视觉区域的表示密切一致。他们在单词和视觉区域的表示形式上定义了对齐得分,并在马尔可夫随机字段的帮助下,将各种单词与生成文本片段的同一区域对齐。借助图像区域和文本片段之间的这些对应关系,作者训练了另一个为新看不见的图像生成文本说明的模型(Karpathy and Fei-Fei 2015)。

图像字幕生成方法

图像字幕生成方法PDF文件第1页

图像字幕生成方法PDF文件第2页

图像字幕生成方法PDF文件第3页

图像字幕生成方法PDF文件第4页

图像字幕生成方法PDF文件第5页

相关文件推荐

2021 年
¥1.0
2024 年
¥2.0
2022 年
¥1.0
2024 年
¥1.0
2024 年
¥2.0