Loading...
机构名称:
¥ 2.0

尽管最近取得了巨大进展,但生成的视频模型仍然很难捕获现实世界的运动,动态和物理。我们表明,这种限制是由常规的像素重建物镜产生的,该物镜以牺牲运动相干性为代价的模型出现忠诚度。为了解决这个问题,我们介绍了视频果酱,这是一个新颖的框架,它通过鼓励模型学习联合外观运动表示,在视频发电机之前灌输有效的动作。Videojam由两个互补单元组成。在培训期间,我们扩展了目标,以预测产生的像素及其相应的运动。在推断期间,我们介绍了内部指导,该机制通过将模型自身不断发展的运动依靠作为动态引导信号来引导生成迈向连贯运动。值得注意的是,我们的

videojam:在视频模型中增强运动产生的联合外观运动表示

videojam:在视频模型中增强运动产生的联合外观运动表示PDF文件第1页

videojam:在视频模型中增强运动产生的联合外观运动表示PDF文件第2页

videojam:在视频模型中增强运动产生的联合外观运动表示PDF文件第3页

videojam:在视频模型中增强运动产生的联合外观运动表示PDF文件第4页

videojam:在视频模型中增强运动产生的联合外观运动表示PDF文件第5页

相关文件推荐