视频字幕是一项视觉理解任务,旨在以语法和语义准确的描述生成。视频字幕中的主要挑战之一是捕获视频中存在的复杂动态。这项研究通过利用预先训练的3D卷积神经网络(3D-CNN)来解决这一挑战。这些网络在建模此类动态,增强视频上下文理解方面特别有效。我们评估了Microsoft研究视频描述(MSVD)数据集的方法,并在视频字幕中通常使用性能指标,包括苹果酒,BLEU-1至BLEU-4,Rouge-L,Rouge-L,Meteor和Spice。结果显示了所有这些指标的显着改善,证明了预训练的3D-CNN在增强视频字幕准确性方面的优势。关键字:视频字幕,视频语言多模式学习,运动功能。