Cavia：可控制的多视频视频扩散，视图综合注意力 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

Cavia：可控制的多视频视频扩散，视图综合注意力

2025年6月30日 00:00 33 Comments

近年来，图像到视频的一代取得了显着突破。但是，生成的帧的3D一致性和相机可控性尚未解决。最近的研究试图将相机控制纳入生成过程中，但是它们的结果通常仅限于简单的轨迹或缺乏从多个不同的相机路径中为同一场景生成一致的视频的能力。为了解决这些局限性，我们介绍了Cavia，这是一个可控制摄像机的多视频视频生成的新型框架，能够转换输入图像……

来源:Apple机器学习研究

近年来，图像到视频的一代取得了显着突破。但是，生成的帧的3D一致性和相机可控性尚未解决。最近的研究试图将相机控制纳入生成过程中，但是它们的结果通常仅限于简单的轨迹或缺乏从多个不同的相机路径中为同一场景生成一致的视频的能力。为了解决这些限制，我们介绍了Cavia，这是一个可用于摄像机控制的多视频视频生成的新型框架，能够将输入图像转换为多个时空一致的视频。我们的框架将空间和时间注意模块扩展到视图关注的注意模块中，从而提高了观点和时间的一致性。这种灵活的设计允许与各种策划的数据源进行联合培训，包括场景级静态视频，对象级合成多视图动态视频以及现实世界中的单眼动态视频。据我们所知，Cavia是第一个框架，它使用户能够以精确控制相机运动来生成同一场景的多个视频，同时保留对象运动。广泛的实验表明，从几何一致性和感知质量方面，Cavia超过了最新方法。

**在Apple†德克萨斯大学奥斯汀分校完成的工作‡google

**在Apple

†德克萨斯大学奥斯汀分校

•Google

轨迹视图时间的相机完成的提高不同的质量 Apple 输入新方法视频 Cavia 一致性输入图像控制的数据源一致的德克萨斯摄像机模块灵活的运动生成对象解决精确控制场景最近的广泛的可控性动态简单的

Cavia：可控制的多视频视频扩散，视图综合注意力

其他外部链接

Tags

XiaoMi-AI