我们提出了G en 3c,这是一种具有精确的C amera c onTrol和暂时3D C的生成视频模型。先前的视频模型已经生成了现实的视频,但是它们倾向于利用少量3D信息,导致不一致的情况,例如弹出和不存在的对象。相机控制(如果完全实现)是不精确的,因为相机参数仅是对神经网络的输入,然后必须推断视频依赖相机。相比之下,G en 3c由3D缓存:通过预测种子图像的像素深度或先前生成的框架获得的点云。生成下一个帧时,G en 3c由用户提供的新摄像头轨迹在3D缓存的2D渲染上进行条件。至关重要的是,这意味着G en 3c都不必须记住它的预期
主要关键词